数据挖掘 | 数盟社区 | Page 3
wKiom1loJiqQKlHuAAK7cNClw9o42.jpeg-wh_651x-s_1929420043 0

谁在人肉搜索?——网络人肉搜索主体的Logistic回归模型分析

- 文章,数据挖掘 - 阅 636

引言 从1994年到2009年,中国的互联网用户从最初的不到1万人发展至现在的2.98亿人,普及率达22.6%,并已超过世界平均水平[1]。15年间,中国互联网凭借自身庞大的用户基础和不断的技术更新衍生出各种新鲜的传播方式和行为模式,人肉搜索便是在2001年就初露端倪的一种新型网…

wKioL1lsEymTkAecAAC6jGwNqJE51.jpeg-wh_651x-s_3150031575 0

一件有趣的事:我用 Python 爬了爬自己的微信朋友

- 文章,数据挖掘 - 阅 764

最近几天干啥都不来劲,昨晚偶然了解到 Python 里的 itchat 包,它已经完成了 wechat 的个人账号 API 接口,使爬取个人微信信息更加方便。鉴于自己很早之前就想知道诸如自己微信好友性别比例都来自哪个城市之类的问题,于是乎玩心一起,打算爬一下自己的微信。 首先,…

15040311443988 0

计算机告诉你,唐朝诗人之间的关系到底什么样?

- 数据挖掘 - 阅 699

在我还念中学的时候,每当心情不好,就靠读诗词来排遣,慢慢读得多了,就发现唐朝诗人之间存在着微妙的关系。比如杜甫非常喜欢李白,到了做梦都想见李白的地步:三夜频梦君,情亲见君意(《梦李白》)。而李白向孟浩然表过白:吾爱孟夫子,风流天下闻(《赠孟浩然》)。孟浩然的…

timg (3) 0

爬虫需谨慎!!!那些你不知道的爬虫反爬虫套路

- 文章,数据挖掘 - 阅 1,226

作者简介 崔广宇,携程酒店研发部开发经理,与去哪儿艺龙的反爬虫同事是好基友。携程技术中心“非著名”段子手。 本文来自携程技术中心(ID:ctriptech) 前言 爬虫与反爬虫,是一个很不阳光的行业。 这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一…

真正 0

使用文本挖掘技术分析Twitter用户对电影的评价

- 文章,数据挖掘 - 阅 776

译者:钱亦欣 引言 使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演,出品方等结构化数据作为输入。然而,在社交媒体日益发达的现在,人们时常会在Twitter,Facebook等网站上发表自己的意见和建议。社交媒体已然是衡…

timg 0

三大运营商新战场:与BAT争夺大数据金矿

- 文章,数据挖掘 - 阅 634

大数据一词,早已在众多行业开始渗透,但距离规模应用尚有一定距离。通信行业作为目前数据量最大、覆盖面最广的行业之一,拥有大量具有社会属性、消费属性的数据资源,是一座储量惊人的“数据富矿”。 “发展大数据,扩大影响力”,这是今年世界电信日的主题。 大数据一词,…

wKioL1kAL_fQGAInAAKd5t5eHFk356.jpg-wh_651x-s_1212145097 (1) 0

大数据到底怎么学:数据科学概论与大数据学习误区

- 文章,数据挖掘 - 阅 1,173

“数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。…

wKiom1jGiJKzxLgPAABeez3XZ68239.jpg-wh_651x-s_376621461 0

海量数据下的存储技术,哪些模式靠得住?

- 文章,数据挖掘 - 阅 714

高清、长周期呈现海量存储需求 高清已经在安防行业全面铺开应用。除了带给用户能够看得更清的良好视觉感受外,对存储容量的需求亦成几何式增长。例如: 前端IPC有130W到500W像素,码流也从有2Mbps到8Mbps,而一个130W像素,8Mbps码流的前端,录像一个月就需要2531.3GB,数据量不…