文章 | 数盟 | Page 337
QQ截图20150312202244_副本 0

Python爬虫小白入门手册

- 文章,编程语言 - 阅 5,063

作者:十一城 长话短说: 基本的爬虫工作原理 基本的http抓取工具,scrapy Bloom Filter: Bloom Filters by Example 如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简…

20140515202416843 0

Convolution Neural Network (CNN) 原理与实现

- 人工智能 - 阅 5,408

作者:Rachel-Zhang 本文结合Deep learning的一个应用,Convolution Neural Network 进行一些基本应用,参考Lecun的Document 0.1进行部分拓展,与结果展示(in python)。 分为以下几部分: 1. Convolution(卷积) 2. Pooling(降采样过程) 3. CNN结构 4.  …

0310020 0

Kafka剖析(一):Kafka背景及架构介绍

- 文章 - 阅 2,944

作者 郭俊 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构…

150311112114856 0

几招教你如何在R中获取数据进行分析

- 数据分析 - 阅 4,947

作者:凌燕   如今,想要购买一部手机已成为一件非常具有挑战性的事,这点很好理解。因为要在如此多的款型和品牌中选择并确定符合最终需求的那款手机, 需要进行深入的产品研究并理解产品的功能。有趣的是,一些产品评论和价格比较,可供用户自由填写和选择,以帮助消费…

2810 0

计算机视觉:随机森林算法在人体识别中的应用

- 人工智能 - 阅 4,691

作者:陈楠 摘 要 人体识别是计算机视觉领域的一大类热点问题,其研究内容涵盖了人体的监测与跟踪、手势识别、动作识别、人脸识别、性别识别和行为与事件识别等,有着非常广泛的应用价值。随机森林以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。…

t0119c62900f30734f5 0

SVM 的简要推导过程

- 人工智能 - 阅 3,077

作者:daniel-D SVM 是一块很大的内容,网上有写得非常精彩的博客。这篇博客目的不是详细阐述每一个理论和细节,而在于在不丢失重要推导步骤的条件下从宏观上把握 SVM 的思路。   1. 问题由来 SVM (支持向量机) 的主要思想是找到几何间隔最大的超平面对数据进行…

141536y5fkqk582ee5zyk2_副本 0

Apache Hive 1.1.0 发布,数据仓库平台

- 基础架构 - 阅 3,055

Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之…

t01e3ec21c3f82a7fb2 0

基于分布式云的机器学习

- 人工智能 - 阅 1,662

这篇文章由微软云与信息服务实验室(CISL)和微软研究院(Microsoft Research)的研究员Dhruv Mahajan,Sundararajan Sellamanickam和Keerthi Selvaraj撰写。 三百六十行,行行出数据。从有关用户行为的记录,到系统的访问,还有使用模式等等。使用像微软Azure这样的云服务平…