基础架构 | 数盟 | Page 43
u=1750755082,2043317726&fm=90&gp=0 0

教你如何成为Spark大数据高手?

- 基础架构 - 阅 2,937

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。 Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并…

t018baf4ac14411e8ea 0

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

- 基础架构 - 阅 4,190

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?….请教了^_^没关系这里我帮大家理清每个技术的原理和思路…

t019fd5ead6eacc87d1 使用Kafka处理高并发数据流已关闭评论

使用Kafka处理高并发数据流

- 基础架构 - 阅 4,246

作者 孙镜涛 如果我们需要持续地处理大约20万条/秒的消息量,同时还需要保证数据的可用性和冗余,我们应该怎么做呢?最近Tadas Vilkeliskis在自己的博客上发表了一篇题为《数据流基础设施》的文章,分享了他们是如何应对这种场景的。 Tadas Vilkeliskis在文章中提到,他们…

t018e40cfee1b3993f7_副本 大数据技术Hadoop面试题,看看你能答对多少?已关闭评论

大数据技术Hadoop面试题,看看你能答对多少?

- 基础架构 - 阅 6,448

1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode  b)Jobtracker  c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份c)1 份d)不确定 答案A默认3分 3. 下列哪个程序通常与 NameNode 在一个节点启动? …

fa3519f4260166a56f3e7a0362df58d9 大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm…已关闭评论

大数据技术大合集:Hadoop家族、Cloudera系列、spark、storm…

- 基础架构 - 阅 4,689

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面…

162714kj5gy6bb2jbyqcyh 【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘已关闭评论

【数盟聚会分享】31页PPT:基于Spark的移动大数据挖掘

- 数据分析,基础架构 - 阅 4,363

数盟11.16 Data Science Meetup(DSM北京)分享:基于Spark的移动大数据挖掘 分享嘉宾:张夏天(TalkingData首席数据科学家) @张夏天_机器学习 内容提要: TalkingData移动数据服务现状和挑战 为什么选择Spark TalkingData移动大数据挖掘 应用、系统和算法 …

r-title 【技术干货】RHadoop实践系列之一:Hadoop环境搭建已关闭评论

【技术干货】RHadoop实践系列之一:Hadoop环境搭建

- 基础架构 - 阅 1,990

RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题…

t01a80048b5d4fe7473 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎已关闭评论

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- 基础架构 - 阅 4,080

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 搜 索引擎架构在…