基础架构 | 数盟社区 | Page 42
t01a80048b5d4fe7473 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎已关闭评论

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- 基础架构 - 阅 3,736

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在…

u=3264051247,3218825694&fm=21&gp=0 Hadoop在Facebook的应用已关闭评论

Hadoop在Facebook的应用

- 基础架构 - 阅 1,692

Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中约有3千万用户至少每天更新一次自己的状态;用户每月总共上传10亿余张照 片、1千万个视频;以及每周共享10亿条内容,包括日志、链接、新闻、微博等。因此Facebook需要存储和处理的数据量是非常巨大的,每天新增加 4T…

12bdc26 【Spark实战】单节点本地模式搭建Spark运行环境已关闭评论

【Spark实战】单节点本地模式搭建Spark运行环境

- 基础架构 - 阅 3,719

【Spark与Hadoop一样,是一种开源的集群计算环境,但在特定工作负载情况下比Hadoop更高效。Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。下面作者将通过单节点本地模式搭建Spark运行环境】 前言: Spark本身用scala写的,运行在JVM之上。 J…

0 云计算:淘宝云梯的多NameNode和跨机房之路已关闭评论

云计算:淘宝云梯的多NameNode和跨机房之路

- 基础架构 - 阅 2,714

2013年4月,阿里云梯集群所在的数据中心(IDC机房)的机位已满,无法继续扩充集群。根据当时阿里集团数据量的增长趋势,在可以预见的很短时 间内,集群规模将因为机房机位不足而无法继续扩充。由于当时云梯的Hadoop版本还不支持单集群跨机房分布的功能,所以阿里集团的大数据业务…

12bdc26 开源集群计算环境:Spark 1.1.0发布已关闭评论

开源集群计算环境:Spark 1.1.0发布

- 基础架构 - 阅 1,576

近日,Spark开发团队宣布开源集群计算环境Spark 1.1.0发布,该版本是Spark 1.X系列版本的第二个API兼容版本,它是目前改变最大的一个版本,具有171个开发者。该版本带来了一些操作性和性能的提升,主要体现在核心模块上,扩展了Spark的一些最新模块(MLlib 和Spark SQL)的功能;…

640971 前雅虎CTO:Hadoop扩展过程中的7个危险信号已关闭评论

前雅虎CTO:Hadoop扩展过程中的7个危险信号

- 基础架构 - 阅 1,402

摘要:开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。 【编者按】本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开…

1spark_architecture 【技术干货】理解Spark的核心RDD已关闭评论

【技术干货】理解Spark的核心RDD

- 基础架构 - 阅 1,825

与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstrac…

1410 0

大数据Hadoop技术在银行的七个应用实例

- 基础架构 - 阅 2,646

如今,Hadoop几乎存在于各个方面,其通过利用大数据来分析信息和增加竞争力。许多金融机构和公司已经开始使用Hadoop成功地解决问题,即便他们本没有计划这样做。因为如果他们不这样做,就会面临市场份额损失的巨大风险。以下是一些特别有趣和重要的大数据和Hadoop用例。 诈骗侦…