二月 | 2015 | 数盟社区
t014ba5f2e9bb3d4f96 0

我们是这样理解语言的之 统计语言模型

- 文章 - 3,044 次阅读

作者:fandywang 记得最早学习语言模型是在研究生的《统计自然语言处理》课上,由哈工大关毅老师主讲,从噪声信道模型切入,到 N-Gram 语言模型的构建、平滑、评价(KL 距离/相对熵、交叉熵、困惑度),接着以音字转换系统(即拼音输入法)为应用实践,最终还引出 Markov 模型…

t01d40d8f3647928875 0

机器学习刀光剑影 之 屠龙刀

- 人工智能 - 1,722 次阅读

作者:@52cs 机器学习是一个大武林,这里面江湖人士颇多,“发明”出来的算法兵器也是五花八门,浩瀚如海,足够你数上三天两夜了。然而,这些兵器行走江湖能用的不多,真正无敌的更是屈指可数,或许只有屠龙刀倚天剑了。正如江湖传言:武林至尊,宝刀屠龙,号令天下,莫敢不从,…

t01f5c816500a3f09d0 0

为何大多数人做出来的图表只是一坨屎?

- 可视化 - 2,047 次阅读

导读:数据可视化,是一种用来将复杂信息数据清晰表述出来的强大有力的工具。通过可视化信息,我们的大脑可以更有效地合成和保留信息内容,增强对信息的理解。但是如果不正确数据可视化,它可能弊大于利。错误的图表可以减少数据的信息,或者更糟的是,完全背道而驰!这就是完美的数…

t01587e02112fd280b5 0

数据挖掘duang duang duang的前世今生 兼谈社交媒体的舆情传播

- 未分类 - 1,436 次阅读

作者:黄成明 好像一夜之间,其实就是一夜之间,duang这个词火了,火得一塌糊涂。我们先来看看它火到什么程度。从今天(26日)早9:00-19:00这段时间关键词“duang”在新浪微博的被提及826万次,平均每秒229次,照此速度今天在微博会出现1300万次左右。 什么时间开始火的?上…

DataScientistJobDescriptions 0

数盟DSM活动深圳站(2015.04.18)

- 活动 - 5,014 次阅读

【会议时间】2015年04月18日(周六) 【场地赞助】深圳市南山区西丽大学城清华校区 清华大学深圳研究生院CI-401教室 【活动协办】城市数据派 【会议规模】100人场地,免费报名参会 【商务合作】如果您有意赞助数盟DSM活动,请联系:兴宝 微信:wxbstrive 【聚会议程】 …

t01476bf221ff14e02e 0

预测奥斯卡只是玩票!靠大数据微软想干大的

- 未分类 - 1,746 次阅读

作者:绍森 说实话, Bing的预测让很多事情变得无趣 ,去年的世界杯是这样、NFL超级碗是这样、甚至是去年美国中期选举也是这样,Bing通过大数据预测提前公布了自己得出的结论。然后就跟兑奖一样,一个个对照正确与否。用这样的方式,Bing提前公布了本届奥斯卡的颁奖结果,然后…

1DPoS1Y 0

机器学习和图像识别是怎样彻底改变搜索的?

- 人工智能 - 1,921 次阅读

简介 文本内容一般很好搜索,但有很多信息是以其他形式存在的。语音识别将音频-以及视频配乐-转换成可以索引和搜索的文本。但如果是视频本身,或其它的图片内容呢? 如果不仅仅是在页面上寻找指出图片相关性的文字或是说明,那么在网络上搜索图片将准确很多。幸好有使用神经…

t01b6f4882287c8e24c 0

五大常用算法之四:回溯法

- 文章 - 2,912 次阅读

作者:红脸书生 1、概念       回溯算法实际上一个类似枚举的搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就“回溯”返回,尝试别的路径。    回溯法是一种选优搜索法,按选优条件向前搜索,以达到目标。但当探索到某一步时,发现原先选…