文章 | 数盟 | Page 367
5a04c6c130d8d9cd9dccca6a8025_480_476_副本_副本 0

给想成为一名数据分析师的新手指导

- 数据分析 - 阅 3,119

翻译: HanSir 本文是著名学习网站Udacity的数据分析基础性文章。由于Udacity的就业导向,不同于单纯介绍学习路径,文章还从职业人士的角度讲述数据分析的方方面面。文章同时附有视频,不失为一篇好的介绍文。以下为小标题: - 数据分析师们做些什么? - 如何在没有相关正…

t01de7c0d27e84f80d4 0

简明深度学习方法概述 Deep Learning:Methods and Application

- 人工智能 - 阅 22,321

作者:@神一手golden 说明:本文主要是翻译整理Li Deng 和 Dong Yu所著的《Deep Learning:Methods and Application》文章并没有全文翻译,而是一个总结并加入个人理解生成的概括性文章。如果要深入了解推荐读原文。博主真心能力有限,所以理解之处错误在所难免,请勿喷。 一…

t01c847ceb23a560af7 0

如何抓取天猫和淘宝的运营数据?

- 文章 - 阅 5,586

作者:@eshopinone邢波涛 对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的。根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还…

t011a823096b5f72c5d 0

Spark Streaming容错的改进和零数据丢失

- 基础架构 - 阅 3,562

作者:Tathagata Das 译者:彭根禄 本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。 以下为…

t014cf03c846c13211c 0

一文看懂大数据的技术生态圈

- 文章 - 阅 1,944

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具…

t01a74b291ce47eaf4f 0

数据分析师常见的10道面试题解答

- 数据分析 - 阅 4,108

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大…

u=3041544344,4077723532&fm=21&gp=0_副本 0

七年磨一剑:Apache HBase 1.0正式发布

- 基础架构 - 阅 2,616

作者 李小兵 Apache HBase是一个高性能、面向列、可伸缩的开源分布式NoSQL数据库,它是Google Bigtable的开源实现。HBase构建在Hadoop基础设施之上,用户使用它能够在廉价PC Server上搭建起大规模结构化存储集群。近日,从Apache基金会官方博客中得知,经过了七年的开发,HBas…

QQ截图20150303210634_副本 0

用Apache Kafka构建流数据平台

- 文章 - 阅 2,626

作者 谢丽 近来,有许多关于“流处理”和“事件数据”的讨论,它们往往都与像Kafka、Storm或Samza这样的技术相关。但并不是每个人都知道如何将这种技术引入他们自己的技术栈。于是,Confluent联合创始人Jay Kreps发布了《流数据平台构建实战指南》。他结合自己过去五年中在LinkedI…