数据挖掘 | 数盟社区
timg (3) 0

爬虫需谨慎!!!那些你不知道的爬虫反爬虫套路

- 文章,数据挖掘 - 阅 338

作者简介 崔广宇,携程酒店研发部开发经理,与去哪儿艺龙的反爬虫同事是好基友。携程技术中心“非著名”段子手。 本文来自携程技术中心(ID:ctriptech) 前言 爬虫与反爬虫,是一个很不阳光的行业。 这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一…

真正 0

使用文本挖掘技术分析Twitter用户对电影的评价

- 文章,数据挖掘 - 阅 389

译者:钱亦欣 引言 使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演,出品方等结构化数据作为输入。然而,在社交媒体日益发达的现在,人们时常会在Twitter,Facebook等网站上发表自己的意见和建议。社交媒体已然是衡…

timg 0

三大运营商新战场:与BAT争夺大数据金矿

- 文章,数据挖掘 - 阅 295

大数据一词,早已在众多行业开始渗透,但距离规模应用尚有一定距离。通信行业作为目前数据量最大、覆盖面最广的行业之一,拥有大量具有社会属性、消费属性的数据资源,是一座储量惊人的“数据富矿”。 “发展大数据,扩大影响力”,这是今年世界电信日的主题。 大数据一词,…

wKioL1kAL_fQGAInAAKd5t5eHFk356.jpg-wh_651x-s_1212145097 (1) 0

大数据到底怎么学:数据科学概论与大数据学习误区

- 文章,数据挖掘 - 阅 578

“数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。…

wKiom1jGiJKzxLgPAABeez3XZ68239.jpg-wh_651x-s_376621461 0

海量数据下的存储技术,哪些模式靠得住?

- 文章,数据挖掘 - 阅 421

高清、长周期呈现海量存储需求 高清已经在安防行业全面铺开应用。除了带给用户能够看得更清的良好视觉感受外,对存储容量的需求亦成几何式增长。例如: 前端IPC有130W到500W像素,码流也从有2Mbps到8Mbps,而一个130W像素,8Mbps码流的前端,录像一个月就需要2531.3GB,数据量不…

1 0

大数据就像煤矿,那“大矿主”BAT 是如何运作金融大数据的?

- 文章,数据挖掘 - 阅 494

文 | 吴俊宇 新年开工,李彦宏的内部信就在朋友圈中引发了一波刷屏。李彦宏说,“这样一个时代,是很明显的金融创新的新时代” ,这充分表明金融业务将是百度未来的四大方向之一。而他的一句“数据秒杀一切算法”,更是从侧面透露了以大数据为代表的人工智能技术将成为百度金…

1484027783276091090 0

如何直观地理解过拟合与欠拟合那些事~

- 文章,数据挖掘 - 阅 928

作者:浩彬老撕 在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规律,但是很显然地,我们的重心还是在于预测上。 既然我们是在做预测,不可避免地,就…

wKioL1hIrmXQk6vEAAIlzkUzRxs795.jpg-wh_651x-s_2079468972 0

数据挖掘 | 数据理解和预处理

- 文章,数据挖掘 - 阅 1,719

作者:灰灰 来源:36大数据 家好,我是灰灰。上次和大家聊了聊对数据挖掘的理解以及数据挖掘工作的基本框架(戳这里),从这次开始,咱们脚踏实地,具体说一说如何一步步进行数据挖掘工作,这次我们的主题是“数据理解与预处理”。 小编遇到过很多人(咳咳,请不要对号入座)…