基础架构 | 数盟社区 | Page 38
162714kj5gy6bb2jbyqcyh 【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘已关闭评论

【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘

- 数据分析,基础架构 - 阅 3,591

数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘 分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: TalkingData移动数据服务现状和挑战 为什么选择Spark TalkingData移动大数据挖掘 应用、系统和算法 …

r-title 【技术干货】RHadoop实践系列之一:Hadoop环境搭建已关闭评论

【技术干货】RHadoop实践系列之一:Hadoop环境搭建

- 基础架构 - 阅 1,547

RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题…

t01a80048b5d4fe7473 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎已关闭评论

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- 基础架构 - 阅 3,492

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在…

u=3264051247,3218825694&fm=21&gp=0 Hadoop在Facebook的应用已关闭评论

Hadoop在Facebook的应用

- 基础架构 - 阅 1,522

Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中约有3千万用户至少每天更新一次自己的状态;用户每月总共上传10亿余张照 片、1千万个视频;以及每周共享10亿条内容,包括日志、链接、新闻、微博等。因此Facebook需要存储和处理的数据量是非常巨大的,每天新增加 4T…

12bdc26 【Spark实战】单节点本地模式搭建Spark运行环境已关闭评论

【Spark实战】单节点本地模式搭建Spark运行环境

- 基础架构 - 阅 3,499

【Spark与Hadoop一样,是一种开源的集群计算环境,但在特定工作负载情况下比Hadoop更高效。Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。下面作者将通过单节点本地模式搭建Spark运行环境】 前言: Spark本身用scala写的,运行在JVM之上。 J…

0 云计算:淘宝云梯的多NameNode和跨机房之路已关闭评论

云计算:淘宝云梯的多NameNode和跨机房之路

- 基础架构 - 阅 2,463

2013年4月,阿里云梯集群所在的数据中心(IDC机房)的机位已满,无法继续扩充集群。根据当时阿里集团数据量的增长趋势,在可以预见的很短时 间内,集群规模将因为机房机位不足而无法继续扩充。由于当时云梯的Hadoop版本还不支持单集群跨机房分布的功能,所以阿里集团的大数据业务…

12bdc26 开源集群计算环境:Spark 1.1.0发布已关闭评论

开源集群计算环境:Spark 1.1.0发布

- 基础架构 - 阅 1,430

近日,Spark开发团队宣布开源集群计算环境Spark 1.1.0发布,该版本是Spark 1.X系列版本的第二个API兼容版本,它是目前改变最大的一个版本,具有171个开发者。该版本带来了一些操作性和性能的提升,主要体现在核心模块上,扩展了Spark的一些最新模块(MLlib 和Spark SQL)的功能;…

640971 前雅虎CTO:Hadoop扩展过程中的7个危险信号已关闭评论

前雅虎CTO:Hadoop扩展过程中的7个危险信号

- 基础架构 - 阅 1,267

摘要:开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。 【编者按】本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开…