本文将由开发者的角度出发,特别是针对性开发者中为数众多的Linux系统和Mac系统用户,奉上同一首对泛Linux生态的一等人工智能开源工具盘点(当然,有些工具也毫不止兼容Linux)。


图也IBM大数量和分析事业部全球研发副总裁Dinesh Nirmal。

  1. Deeplearning4j:为Java用户量身定制

现年凡莎士比亚回老家四百周年。在莎翁名剧《尤利乌斯·凯撒》中一个占卜师有诸如此类同样词没有上下文的预言:“请小心‘三月’中”,
凯撒听后非懂得就句话是何意思,于是说让这占卜师继续做梦吧。结果在三月十五日,凯撒被密谋暗杀。类似的,今天之前瞻算法可以告诉你一个预言,但却一筹莫展提供合适的上下文,这给丁难做出更加行动的裁决。

Deeplearning4j(Deep Learning For
Java)是Java和Scala环境下之一个开源分布式的深浅上类,由总部在美国旧金山底商业智能和商号软件企业Skymind牵头开发,并获取了腾讯的投资。正使她的命名,Deeplearning4j的运转需要Java虚拟机JVM的支撑。

其余一个有关预测算法的事例是以新型的《复仇者联盟3》中,出现了一个人工智能合成物“奥创”。奥创只能以字面理解任务,于是将“拯救地球”理解成了“杀死所有的人类”。这即比如一个典型的预测算法,按字面理解任务而忽视掉了外的可能要任务的现实意义。

Deeplearning4j团队以官网表示,他们期望经过有深上算法的出,将商业带入智能化数据的时。也亏为贯彻就无异于好,惠及更多的用户,因此选择了移植性更好的Java环境来贯彻这些算法。目前,Deeplearning4j的这些算法就以谷歌、Facebook和微软相当平台取得了广泛应用。

于是乎,2016年1月,哈佛商学院教授Michael Luca、经济学教授Sendhil
Mullainathan以及康奈尔大学教学Jon
Kleinberg联合以《哈佛商贸评论》发表了一如既往篇题也《算法为亟需管家》的稿子,呼吁全球科技界和商界在机器上算法和人工智能时代要小心算法的管理问题。因为,如果发生同一龙,算法能够控制“凯撒”或地球的造化,那么谁来管理算法为?

值得一提的是,为了有利于开发者自由定制,Deeplearning4j已经开了苦斗多的算法调节接口,并针对性接口参数做出了详尽解释。同时,Deeplearning4j团队还开发了针对矩阵运算的ND4J和ND4S库(N-Dimensional
Arrays for Java/Scala),同样需要JVM的支持。

IBM大数目与析事业部全球研发副总裁Dinesh
Nirmal最近现身在都办起的2016机上与行利用国际峰会,他介绍了IBM作为环球大数据解析、机器上及人为智能的前沿科技企业拿什么给一个扑朔迷离的算法世界,这就算吧机上去一个得以自读、自调、自优化的机器管家——基于Spark的机上讲话服务。

Deeplearning4j遵循Apache
2.0始发源协议,提供了依据AWS云服务的GPU运算支持,以及微软服务器框架的支持。

Apache
Spark是一个分布式计算框架,是占为满足低顺延任务与内存数据存储而优化的开源大数据系统。由于其并行计算性能与兼职速度、可扩展性、内存处理以及容错性等,再加上可大幅简化编程的丰富API,让Spark成为了机器上算法的主流计算平台。IBM在2015年6月颁发加盟Spark开源社区,并答应以将Spark作为协调之辨析与商务平台核心。

官网:Open-source, Distributed Deep Learning for the
JVM

2016年6月起,IBM花了5个月时开了冲Spark的机器上道服务,该云服务将提供公有云、本地部署以及混合云部署等版本,该云服务还而配置于IBM大型主机z系列上。Dinesh强调,该云服务除外当获取数据、抽取特征、训练模型、部署模型、做出预测相当经机器上过程遭到展开优化外,还加入了无休止反馈、自动建模、重新训练模型等自动化管理。

  1. Caffe:广受欢迎的深度上框架

在机关建模中,IBM的机上道服务会冲数据模型自动推荐最优算法,并冲数据特征值来评论模型的属性和展现,当型训练好后可于实时环境、生产环境以及离线批量环境遭受布局模型。当数码变化后,该云服务还能够实时督查模型的见,然后自动重新训练模型。整个过程被不需要将模型离线训练后更还上线,极大便利了实时生产条件面临的经贸使用。

Caffe的全是 “Convolution Architecture For Feature
Extraction”,意呢“用于特征提取的卷积架构”,主要开发者来自伯克利大学的视觉及上为主(Berkeley
Vision and Learning Center,BVLC),基于BSD 2-Clause开源许可商榷发布。

Dinesh认为,在机器上之社会风气里,开源是一个不胜趋势。为之,IBM开源了温馨的重量级机器上框架SystemML,并以旧金山设Spark技术中心,还于中外投入过3500叫IBM研究与开发人员开展以及Spark相关品种。2016年6月,IBM把好的开源软件与因Apache
Spark的H2O、RStudio、Jupyter
Notebooks等开源科研分析交互环境相结合推出了Data Science
Experience云服务,以升级数据科学家的机上与数据解析速度。

Caffe是正规知名的吃水上框架,依据官网介绍,其关键特点是:运算速度快(官方显示在仅仅片NVIDIA
K40
GPU的运算能力下,Caffe每天足拍卖越60M的图片数),模块定制好(在CPU或GPU之间的换只待简单修改一下参数设定),扩展能力强(目前起超越一千称开发者基于Caffe开发了细分支版本
),以及丰富的社区支撑(Caffe已经于授权为各种研究单位、初创公司暨工业集团),因此特意符合为神经网络建模和图像处理任务。

以更加强团结的数目解析产品跟技艺生态圈,IBM从2015的话也Apache
Toree、EclairJS、Apache Quarks、Apache Mesos、Apache
Tachyon(现又名为Alluxio)等开源项目做了大量献,也为Apache
Spark的子项目如SparkSQL、SparkR、MLLib和PySpark等做了尖锐贡献。如今,Spark已经和IBM的Watson、商务、分析、系统跟提等超过45种植为主产品竞相结合。

官网:Caffe | Deep Learning
Framework

IBM对于Spark的投入已超过3亿美金,并拿Spark视为数据解析的操作系统。推出基于Spark的机上讲话服务是IBM的流行进展,是为吃机器上算法提供一个安、高可靠的联结管理平台。在是基础之上,IBM进一步管Watson用于机器上,让人工智能帮助机器上算法更“聪明”地掌握人的意图,这就是刚生产的Watson数据平台。

  1. H2O:企业级机器上框架

Dinesh介绍说IBM正在将具有的机械上、人工智能、数据解析、数据管理等整合起来到一个合并之依据Spark的阳台上,这包括开源之算法和IBM自有的算法等,再经过优化及布局企业级解决方案,最终因为混合云方式啊合作社打造一个足自由选择的多寡以及算法管理平台。

H2O(即水的化学式)是一个开源、快速、可扩大的分布式机器上框架,同时提供了大量之算法实现。它支持深度上、梯度推进(Gradient
Boosting)、随机森林(Random
Forest)、广义线性模型(即逻辑回归,弹性网络)等各种机器上算法。

2017年,我们用迎来一个活动互联网大提高之非常时,数据和算法将尤为容易地“统治”世界。从在线音乐、在线娱乐、在线广告及各项生活服务、社交关系与内容消费等,机器上算法在不知不觉吃给众人做了过多摘取。因此当欢呼机器解放人类的同时,也要是警惕算法带来的“偏见”,这即用会由学习、自校正的机。

H2O框架的中坚代码由Java编写,数据及模型通过分布式的key/value存储在挨家挨户集群节点的内存中,算法使用Map/Reduce框架实现,并行使了Java中的Fork/Join机制来落实多线程。

由机械上及学之机,这是人为智能商业化道路及的必经之路。

H2O是一个还关爱企业用户之人工智能分析工具,它聚焦于为控制大量数量的店堂用户提供高速精准的预测分析范,从海量数据中提有助于商业决策的音。

【编辑推荐】

依据H2O官方的多寡,目前早已生越7万名数据科学家和8万小集体机构变成了H2O平台的忠贞拥趸。

官网:H2O.ai

  1. MLlib:基于Spark框架的机械上算法实现库

MLlib是Apache开源项目Spark针对有些常用之机械上算法的实现库,同时也囊括了连带的测试程序和数量生成器。

以官网的描述,MLlib的重中之重特色是易用(天生兼容Spark框架的API接口和Python、Java、Scala等多种语言)、高性能(依靠Spark的数额管理能力,运行迭代和逻辑回归算法时比Hadoop框架快100倍增)和易于部署(可以直接当现有的Hadoop数据集群达运行)。

MLlib目前支撑分类、回归、推荐、聚类、生存分析等强机上算法。

官网:MLlib | Apache
Spark

  1. Apache Mahout:Hadoop广泛采取的机器上开源框架

Apache
Mahout同样为是一个Apache开源项目,与MLlib相对应,Mahout是应用在Hadoop平台下之机器上开源框架。

Mahout有如下三单重点特色:

1) 提供简单、可扩大的编程环境暨框架;

2) 同时也Scala + Apache Spark、H2O以及Apache
Flik平台提供由包好之算法实现;

3) 支持R语言的语法规则进行矩阵计算。

官网:Scalable machine learning and data
mining

  1. OpenNN:专注神经网络的落实库

OpenNN的齐为“Open Neural Networks
Library”,即开源神经网络库,其中心代码由C++编写,从名字就可以看出,其重要性面向深度上世界,助力于用户构建各种不同的神经网络模型。

仍官方描述,OpenNN可用于实现监督上场景中其他层次之非线性模型,同时还支持各种具有通用近似属性的神经网络设计。

除却模型的多层支持他,OpenNN最根本优势还在强大的性质表现。具体来说就是,OpenNN能够透过C++语言实现的为主代码高效地调节内容以,通过OpenMP库很好地平衡多线程CPU调用,以及通过CUDA工具对GPU进行加速。

官网:Open Neural Networks
Library

  1. Oryx 2:重新规划了Lambda架构

Oryx 2凡Oryx项目之2.0本子,前身名也 Myrrix,后来被特别数据企业 Cloudera
收购,才改名为 Oryx。

Oryx 2.0关爱于广大机器上/预测分析基础框架的实时呈现,它根据Apache
Spark和Apache
Kafka框架开发,并再设计了Lambda架构,使得层次中的复用性更强。

2.0本相比前实现了重新多算法,包括ALS协同过滤、随机森林、以及K-means++等。

官网:Oryx –
Overview

  1. OpenCyc:全球最为宏大、最齐全的通用型知识库与常识推理引擎

OpenCyc是Cycorp公司推出的一个根据Cyc的开源版本,而Cyc是时下世界最庞大、最全的通用型知识库与常识推理引擎。

OpenCyc包含数十万独精心组织的Cyc词条。Cycorp公司不仅免费供OpenCyc,同时为鼓励开发者基于OpenCyc开发对让特定应用领域的分段版本。

当下,OpenCyc已经给成功应用在大数额建模、语言数据做、智能文本理解、特定领域的专家系统建模和人为智能娱乐。

官网:OpenCyc –
Cycorp

  1. Apache SystemML:专注让那个数据解析的开源机器上平台

SystemML是一个使用机械上算法进行深数量解析的开源AI平台,其根本特色是支持R语言和Python的语法,专注于死数据解析世界,以及特别为高阶数学计算设计。

遵官网的介绍,Apache SystemML基于Apache
Spark框架运行,其极深的表征就是是力所能及自动、逐行地评估数据,并因评估结果确定用户之代码应该直接运行于驱动器上要运行在Apache
Spark集群上。

而外Apache Spark之外,SystemML还支持Apache Hadoop、Jupyter和Apache
Zeppelin等大多单阳台。目前,SystemML技术已打响利用在交通、航空暨经济等多单领域。

官网:Apache SystemML – Declarative Large-Scale Machine
Learning

  1. NuPIC:基于层级实时存储算法的机器智能平台

NuPIC是一个特种之开源机器智能平台,它根据相同种植大脑皮层理论,即“层级实时存储算法”(Heirarchical
Temporary
Memory,HTM)。NuPIC聚焦为分析实时数据流,可以经过上数据中因时间的状态变化,对未知数据开展前瞻,并宣布其中的奇异特性。

NuPIC关键的作用特色包括:

1) 持续的在线上:NuPIC模型可以穿梭冲快速转移之数据流进行实时调整;

2) 时间以及空中分析:像人脑一样,NuPIC可以以拟时间跟空中的别;

3) 实时之数据流分析:智能化的数量解析不会见趁机数据量的增加而反;

4) 预测及建模:通过通用性的大脑皮层算法,对数码进行展望、建模和上;

5)
强大的不可开交检测能力:实时检测数据流的乱,不指僵化的阈值设置和过时的算法;

6) 层级实时存储算法:支持新的HTM计算架构。

官网:Numenta Platform for Intelligent
Computing

由于2016止是人造智能走向主流的元年,未来就技术的逾上扬以及革新,势必会出现又多、更丰富的开发工具。这里值得注意的一些凡是:工具的含义不光在缓解了家常研发中碰到的各种问题,更在乎降低了开之难度,引导了再也多人口投入到人工智能的研发中。

相关文章