基础架构 | 数盟
201812318718764860 0

手把手教你用Python进行Web抓取(附代码)

- 文章,基础架构,数据挖掘,深度学习 - 阅 559

本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息。 作者:Kerry Parker 翻译:田晓宁 本教程以在Fast Track上收集百强公司的数据为例,教你抓取网页信息。 作为一名数据科学家,我在工作中所做的第一件事就是网络数据采集。使用代码从网站收集数据…

145202791495850396 0

Spark 踩坑记—Spark Streaming+Kafka

- 文章,基础架构,编程语言 - 阅 341

作者:肖力涛 前言 在 WeTest 舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了 spark streaming 从 kafka 中不断拉取数据进行词频统计。本文首先对 spark streaming 嵌入 …

20181029040854597 0

Spark 踩坑记—Spark Streaming+Kafka

- 文章,基础架构,编程语言 - 阅 438

作者:肖力涛 前言 在 WeTest 舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了 spark streaming 从 kafka 中不断拉取数据进行词频统计。本文首先对 spark streaming 嵌入 …

0

Spark灰度发布在十万级节点上的实践

- 文章,基础架构,编程语言 - 阅 396

本文介绍了顶级互联网公司数万节点下 Spark 的 CI 与 CD & CD 灰度发布实践。包含如何维护源代码,如何维护 Release 多版本,开发版与正式版,以及如何实现灰度发布,如何进行 hotfix 等。为了提高本文内容的可借鉴性,隐去了公司特有内容,只保留通用部分。 CI 介绍 持续…

af75497768654fdfabeec1b3b5a08ca7 0

Uber开源Marmaray:基于Hadoop的通用数据摄取和分散框架

- 文章,数据分析,基础架构,数据挖掘 - 阅 431

三年前,Uber采用Apache Hadoop作为数据平台,从而可以跨计算机集群管理数PB的数据。但是,因为我们有很多团队、工具和数据源,所以需要一种可靠的方式来摄取和分散数据。Marmaray是Uber开源的Apache Hadoop数据提取和分散框架。Marmaray由我们的Hadoop平台团队设计和开发,是一…

cbe65b3adaef26b257e9ffbd1dde5477 0

YARN & Mesos,论集群资源管理所面临的挑战

- 文章,基础架构 - 阅 366

在国内,大部分的Spark用户都是由Hadoop过渡而来,因此YARN也成了大多Spark应用的底层资源调度保障。而随着Spark应用的逐渐加深,各种问题也随之暴露出来,比如资源调度的粒度问题。为此,7月2日晚,在CSDN Spark高端微信群中,一场基于YARN和Mesos的讨论被拉开,主要参与分享的…

wKioL1msEICQRtSHAABKgDO5-9Y865 0

如何用Python编写你最喜欢的R函数?

- 文章,基础架构,人工智能 - 阅 333

本文介绍了采用创建一个Python脚本,用该脚本模仿R风格的函数的方法来方便地进行统计。 是用R语言还是用Python语言?这是一个旷日持久的争论。在此,我们可以尝试采用折中路线:创建一个Python脚本,用该脚本模仿R风格的函数,来方便地进行统计! 简介 用R语言还是用Python…

640.webp (1) 0

领英开源TonY:构建在Hadoop YARN上的TensorFlow框架

- 文章,基础架构 - 阅 361

领英用户超过 5.75 亿,其 Hadoop 集群中存储了数百 PB 的数据,因此需要一种可扩展的方式处理所有这些信息。TensorFlow 支持分布式训练,但构建分布式 TensorFlow 框架并非易事,因此需要将分布式 TensorFlow 的分析能力和 Hadoop 的扩展能力结合起来,领英在 YARN 上构建了一个…