数据挖掘 | 数盟社区 | Page 2
narrow_b2737cdc-92bc-47b1-8f42-27fc52cedbbb 0

永不过时的K-Means算法

- 文章,数据挖掘 - 阅 1,260

作者:Fjrodriguez2 来源:数据分析网 众所周知,数据挖掘算法并非十全十美,在某些情况下他们也会失效。 使用 K 均值算法(K-Means)时就可能会出现这种情况,当然此时你可以尝试一下另一种方法—— K 中心聚类算法(K-Medoids),也许效果会更好。 在该网站之前的文章…

1474276490208011106 0

大数据和实时分析的算法分类

- 文章,数据挖掘 - 阅 880

作者:hely 如今,大数据技术的发展和进步开辟了收集和传输大量的数据更有效的新方式。这场革命促进了实时算法和方法的研究和发展。传统上,机器学习算法并不是专为实时处理而设计的。事实上,数据的科学竞赛(如Netflix,Kaggle)由于算法昂贵,并且不切实际的使用,并且计算量…

5595f22bbbb49 0

一张萌图告诉你:5步让你成为爬虫高手!

- 文章,数据分析,数据挖掘 - 阅 1,572

互联网创业离不开数据,如果能自己做个数据爬虫,那岂不是一件很美好的事情吗? 其实自己做数据挖掘不是梦,学点Python的基本功能,5步就能让你成为一个爬虫高手!

QQ图片20160830163300 0

不可不知 | 有关文本挖掘的14个概念

- 文章,数据挖掘 - 阅 852

作者:杜尔森·德伦(Dursun Delen)来源:《大数据掘金 挖掘商业世界中的数据价值》,中国人民大学出版社出版我们所处的信息时代以急速增长的数据信息收集、储存和转换成电子格式为特征。大量的商业数据以杂乱无章的文本形式储存。 据美林公司(Merrill Lynch)和高德纳公司(Gar…

798916-20151014220457522-543229966 0

使用SimHash进行海量文本去重

- 数据挖掘 - 阅 1,158

原作者: Poll的笔记 |来自: 博客园 阅读目录 1. SimHash与传统hash函数的区别 2. SimHash算法思想 3. SimHash流程实现 4. SimHash签名距离计算 5. SimHash存储和索引 6. SimHash存储和索引 7. 参考内容 本文介绍的SimHash是一种局部敏感hash,它也是Google公司进行海…

1414625872588 0

用Python挖掘Twitter数据Part1:数据采集

- 数据挖掘 - 阅 2,832

本文为数盟原创译文,转载请注明出处为数盟社区。 这是7部系列中的第1部分,注重挖掘Twitter数据以用于各种案例。这是第一篇文章,专注于数据采集,起到奠定基础的作用。   来自独立数据科学顾问Marco Bonzanini Twitter是一个流行的社交网络,用户可以共享称为…

173850pfbbjnqrdd2qggkd 0

大数据挖掘技术在企业创新中的应用

- 数据挖掘 - 阅 1,244

原作者: 达观数据 陈运文 1、引言 从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年历史长河里,为人类文明的发展进化带来了难以估量的巨大价…

p23424357 0

用朴素贝叶斯进行文本分类(下)

- 数据分析,数据挖掘 - 阅 1,727

作者: 龙心尘 && 寒小阳 时间:2016年2月。 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 http://blog.csdn.net/han_xiaoyang/article/details/50629587 声明:版权所有,转载请联系作者并注明出处 1. 引言 上一篇文章我们主要从理论上…