基础架构 | 数盟 | Page 44
t018baf4ac14411e8ea 0

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

- 基础架构 - 阅 4,237

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?….请教了^_^没关系这里我帮大家理清每个技术的原理和思路…

t019fd5ead6eacc87d1 使用Kafka处理高并发数据流已关闭评论

使用Kafka处理高并发数据流

- 基础架构 - 阅 4,355

作者 孙镜涛 如果我们需要持续地处理大约20万条/秒的消息量,同时还需要保证数据的可用性和冗余,我们应该怎么做呢?最近Tadas Vilkeliskis在自己的博客上发表了一篇题为《数据流基础设施》的文章,分享了他们是如何应对这种场景的。 Tadas Vilkeliskis在文章中提到,他们…

t018e40cfee1b3993f7_副本 大数据技术Hadoop面试题,看看你能答对多少?已关闭评论

大数据技术Hadoop面试题,看看你能答对多少?

- 基础架构 - 阅 6,592

1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode  b)Jobtracker  c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份c)1 份d)不确定 答案A默认3分 3. 下列哪个程序通常与 NameNode 在一个节点启动? …

fa3519f4260166a56f3e7a0362df58d9 大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm…已关闭评论

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm…

- 基础架构 - 阅 4,854

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面…

162714kj5gy6bb2jbyqcyh 【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘已关闭评论

【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘

- 数据分析,基础架构 - 阅 4,446

数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘 分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: TalkingData移动数据服务现状和挑战 为什么选择Spark TalkingData移动大数据挖掘 应用、系统和算法 …

r-title 【技术干货】RHadoop实践系列之一:Hadoop环境搭建已关闭评论

【技术干货】RHadoop实践系列之一:Hadoop环境搭建

- 基础架构 - 阅 2,042

RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题…

t01a80048b5d4fe7473 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎已关闭评论

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- 基础架构 - 阅 4,161

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在…

u=3264051247,3218825694&fm=21&gp=0 Hadoop在Facebook的应用已关闭评论

Hadoop在Facebook的应用

- 基础架构 - 阅 2,061

Facebook作为全球知名的社交网站,拥有超过3亿的活跃用户,其中约有3千万用户至少每天更新一次自己的状态;用户每月总共上传10亿余张照 片、1千万个视频;以及每周共享10亿条内容,包括日志、链接、新闻、微博等。因此Facebook需要存储和处理的数据量是非常巨大的,每天新增加 4T…