文章 | 数盟社区 | Page 283
t01254fb0f796744f87 0

Ramp:快速开发机器学习原型

- 人工智能 - 阅 1,866

Ramp是一个基于pandas的Python库,可以快速开发机器学习解决方案的原型。它是一个轻量级的机器学习框架,可插入已有的Python学习和统计工具(如scikit-learn、rpy2等)。Ramp提供了一个简单的声明性语法探索功能,算法和快速,高效地转换。 Why Ramp? Clean, declarative …

QQ截图20141223204113_副本 0

最受Web应用开发者欢迎的NoSQL和关系型数据库

- 基础架构 - 阅 1,703

作者:李辉 Web应用离不开数据库,目前市场上有种类繁多数据库可供开发者选择,例如SQL、NoSQL、键值、图谱数据库等等。关于不同数据库在开发者中的受欢迎程度也是仁者见仁智者见智,但是通过统计亚马逊这样的公共云平台,我们还是很容易发现数据库之间的流行度存在很大差异。…

QQ截图20141223203308 0

BigData预处理(完整步骤)

- 文章 - 阅 4,311

一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成) (3)原始数据中存在的问题: 不一致 —— 数据内含出现…

QQ截图20141223202102_副本 0

R语言学习路线和常用数据挖掘包

- 编程语言 - 阅 4,214

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着…

20141223101728165_副本 0

汇总:大数据必备十大工具

- 文章 - 阅 2,027

随着互联网技术的快速发展,移动互联网和电商的日益普及,使得数据也在日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表: 1. Apache Hive Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容…

1406774528230_副本 0

解密最接近人脑的智能学习机器——深度学习及并行化实现

- 人工智能 - 阅 12,172

摘要: 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具备强大的特征表达能力和对复杂任务建模能力。训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为…

64_副本 0

Hermes与开源的Solr、ElasticSearch的不同

- 文章 - 阅 2,078

谈到Hermes的索引技术,相信很多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch真可谓是大名鼎鼎,是两个顶级项目,最近有些同学经常问我,“开源世界有Solr、ElasticSearch为什么还要使用Hermes?” 在回答这个问题之前,大家可以思考一个问题,既然已经有了Oracle、My…

QQ截图20141223191038_副本 0

mlpack:可伸缩C++机器学习库

- 人工智能 - 阅 3,056

作者:张红月 mlpack是一个直观、快速、可伸缩的C++机器学习库,旨在为机器学习研究者提供更广泛的机器学习方法和函数。它的目的是让新用户通过简单、一致的API使用机器学习,同时为专业用户提供C++的高性能和最大灵活性。 mlpack官网还提供了大量的学习教程、API和可…