【经管资源】机器学习系统研究进展

我的素质低

1816

收藏 2016-03-02

要实现高效的大数据机器学习，需要构建一个能同时支持机器学习算法设计和大规模数据处理的一体化大数据机器学习系统。研究设计高效、可扩展且易于使用的大数据机器学习系统面临诸多技术挑战。近年来，大数据浪潮的兴起，推动了大数据机器学习的迅猛发展，使大数据机器学习系统成为大数据领域的一个热点研究问题。介绍了国内外大数据机器学习系统的基本概念、基本研究问题、技术特征、系统分类以及典型系统；在此基础上，进一步介绍了本实验室研究设计的一个跨平台统一大数据机器学习系统——Octopus（大章鱼）。

关键词：大数据；机器学习；分布并行计算；大数据处理平台

1 大数据机器学习系统研究背景

近年来，大数据技术在全球发展迅猛，掀起了巨大的研究热潮，引起全球业界、学术界和各国政府的高度关注。随着计算机和信息技术的迅猛发展和普及应用，行业应用数据呈爆炸性增长。动辄达到数百TB甚至数PB规模的行业/企业大数据已经远远超出了传统计算技术和信息系统的处理能力。与此同时，大数据往往隐含着很多在小数据量时不具备的深度知识和价值，大数据智能化分析挖掘将为行业/企业带来巨大的商业价值，实现多种高附加值的增值服务，从而提升行业/企业生产管理决策水平和经济效益。

大数据分析挖掘处理主要分为简单分析和智能化复杂分析两大类。简单分析主要采用类似于传统数据库OLAP的处理技术和方法，用SQL完成各种常规的查询统计分析；而大数据的深度价值仅通过简单分析是难以发现的，通常需要使用基于机器学习和数据挖掘的智能化复杂分析才能实现。

机器学习和数据分析是将大数据转换成有用知识的关键技术，并且有研究表明，在很多情况下，处理的数据规模越大，机器学习模型的效果会越好[1~3]。目前，国内外业界和学术界专家普遍认同的观点是，越来越多的海量数据资源加上越来越强大的计算能力，已经成为推动大数据时代人工智能技术和应用发展的动力，将基于大数据的机器学习和人工智能推上了新一轮发展浪潮，让大数据机器学习（bigdata machine learning）成为全球业界和学术界高度关注的热点研究领域。随着大数据时代的来临，Google、Facebook、微软、百度、腾讯等国内外著名企业均纷纷成立专门的基于大数据的机器学习与人工智能研发机构，深入系统地研究基于大数据的机器学习和智能化计算技术。

由于大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用，在2014年12月中国计算机学会（CCF）大数据专家委员会上百位大数据相关领域学者和技术专家投票推选出的“2015年大数据十大热点技术与发展趋势”中，结合机器学习等智能计算技术的大数据分析技术被推选为大数据领域第一大研究热点和发展趋势[4]。

由于大数据机器学习在具体实现时通常需要使用分布式和并行化大数据处理技术方法，也有人将大数据机器学习称为“分布式机器学习”（distributedmachine learning）或“大规模机器学习”（large-scale machine learning）。

大数据机器学习，不仅是机器学习和算法设计问题，还是一个大规模系统问题。它既不是单纯的机器学习，也不是单纯的大数据处理技术所能解决的问题，而是一个同时涉及机器学习和大数据处理两个主要方面的交叉性研究课题。一方面，它仍然需要继续关注机器学习的方法和算法本身，即需要继续研究新的或改进的学习模型和学习方法，以不断提升分析预测结果的准确性；与此同时，由于数据规模巨大，大数据机器学习会使几乎所有的传统串行化机器学习算法难以在可接受的时间内完成计算，从而使得算法在实际应用场景中失效。因此，大数据机器学习在关注机器学习方法和算法研究的同时，还要关注如何结合分布式和并行化的大数据处理技术，以便在可接受的时间内完成计算。为了能有效完成大数据机器学习过程，需要研究并构建兼具机器学习和大规模分布并行计算处理能力的一体化系统。

因此，领域内出现了“大数据机器学习系统”或者“分布式学习系统”的概念，并进行了诸多大数据机器学习系统的研究与开发工作。

2 大数据机器学习系统的技术特征

参考文献[5,6]专门介绍了大数据机器学习系统的技术特征。

一个大数据机器学习系统会同时涉及机器学习和大数据处理两方面的诸多复杂技术问题，包括机器学习方面的模型、训练、精度问题以及大数据处理方面的分布式存储、并行化计算、网络通信、局部性计算、任务调度、容错等诸多因素。这些因素互相影响，交织在一起，大大增加了系统设计的复杂性。因此，大数据机器学习已经不仅仅是一个算法研究问题，而是需要针对大数据集，考虑从底层的大数据分布存储到中层的大数据并行化计算，再到上层的机器学习算法，设计一种一体化的支撑系统，形成易于为数据分析程序员和机器学习研究者使用的、完整的大数据机器学习系统。

一个理想的大数据机器学习系统通常需要具备以下几个方面的技术要素和特征[5~7]。

应当从整个学习的生命周期/流水线来考虑，包括训练数据和特征的提取、并行学习算法的设计、训练模型和参数的查询管理、分布式训练计算过程，都应在一个一体化的学习系统平台上完成。

应提供多种并行训练模式，支持不同的机器学习模型和算法。

需要提供对底层系统的抽象，以实现对底层通用大数据处理引擎的支持，并提供数据科学中常用的编程语言接口（API）。

应该拥有开放和丰富的生态、广泛的应用和快速的进化能力。

在上述技术特征中，一个非常重要的思路是，要通过系统抽象来降低系统设计的复杂性。如图2所示，一个设计良好的大数据机器学习系统，应当通过定义特定的机器学习编程计算和系统抽象接口，将上层机器学习和底层分布式系统解耦开来，将机器学习实现在现有的大数据计算平台之上，而不需要考虑底层系统层面的因素，以此实现底层大数据处理平台对上层用户的透明化，让上层用户从诸多底层的分布和并行化大数据编程计算细节中解放出来，以便他们致力于上层的机器学习模型和算法的设计实现。通过编程计算和系统抽象层API，向上提供各种机器学习编程计算接口以及学习模型和训练数据的表示，向下由底层分布式系统负责处理并提供高效的分布和并行化计算实现。

3 大数据机器学习系统的主要研究问题

知名的Apache Flink大数据分析系统研究者在2014年VLDB会议主题报告和论文中[8]，从数据分析的复杂程度和数据规模的维度，考察了现有的相关研究工作和系统，如图3所示。现有的系统要么主要用于小规模复杂分析，要么主要用于大规模的简单统计分析，缺少既具有复杂数据分析能力又具有强大的大数据处理能力的大数据分析系统；文章作者甚至认为，对于行业大数据分析人员而言，现有的工具还处于“石器时代”[8]。

与此同时，著名的UC Berkeley AMPLab在研究基于Spark的机器学习库MLBase[9]时，从计算性能和系统易用性两个重要维度，考察了现有的大数据机器学习研究工作和系统，如图4所示。面向机器学习和数据分析时，目前已有的工作和系统，绝大多数都未能同时具备大规模分析处理能力和良好的系统易用性。

因此，大数据机器学习除了需要继续关注和研究传统意义上的学习方法和算法问题，以不断提高学习精度外，还需要重点关注和研究解决大数据场景下所特有的两大技术问题：

一是大数据复杂分析时的计算性能问题；

二是大数据机器学习系统的可编程性和易用性问题。

（1）大数据复杂分析时的计算性能问题

在计算性能方面，大规模数据集给很多传统串行的机器学习和数据分析挖掘算法带来很大的挑战，需要研究解决面向大数据机器学习和数据分析的高效计算方法和系统。在数据集较小时，很多复杂度在O(n log n)、O(n2)甚至O(n3)的传统串行化机器学习算法都可以有效工作；但当数据规模增长到极大尺度时，现有的串行化算法将花费难以接受的时间开销，使得算法在实际应用场景中失效，这给业界大量实际的大数据复杂分析应用带来很多新的挑战和问题[10]。正如微软全球副总裁陆奇博士在2012年指出的，“大数据使得现有的大多数机器学习算法失效，面向大数据处理时这些算法都需要重写”。

在大型互联网企业，大规模机器学习算法经常用于处理十亿至千亿级别的样本以及一亿至数十亿数据特征的大规模数据集。例如，Google著名的Seti太空搜索项目需要进行高达千亿样本、十亿特征数据的大规模机器学习，腾讯Peacock主题模型分析系统需要进行高达十亿文档、百万词汇、百万主题的主题模型训练，而仅一个百万词汇乘以百万主题的矩阵，其数据存储量即高达3TB，如果再考虑十亿文档乘以百万主题的矩阵，其数据量更是高达3 PB[3]。如此大量的训练样本，加上机器学习算法本身的复杂性，导致难以在传统的串行化计算平台上、在可接受的时间内完成如此巨大的复杂分析计算任务，因而带来了十分突出的计算性能问题。因此，大数据机器学习算法和系统需要研究解决大规模场景下高效的分布式和并行化算法设计以及计算问题，以保证算法和系统可以在可接受的时间内完成大规模数据的学习和训练。

6结束语

近几年来，大数据技术的发展推动了大数据机器学习和智能计算技术的发展热潮。大数据机器学习不仅是一个单纯的机器学习问题，更是一个大规模的复杂系统问题；是一个同时涉及机器学习和大数据处理两个领域的交叉研究课题。要实现有效的大数据机器学习处理，需要构建一个能同时支持机器学习算法设计和大规模数据处理的一体化大数据机器学习系统。

本文介绍了国内外大数据机器学习系统的基本概念、基本研究问题、技术特征、系统分类以及典型系统。在此基础上，进一步介绍了研究设计的跨平台统一大数据机器学习原型系统Octopus。基于大多数机器学习和数据分析算法可表示为矩阵运算的事实，Octopus采用矩阵模型作为大数据机器学习和数据分析抽象编程计算模型，提供了一个基于矩阵的高层编程模型和接口，并基于R语言和开发环境向用户提供了一个矩阵运算R扩展包，为用户提供可扩展性好且易于使用的矩阵运算操作，允许用户基于所提供的大规模矩阵运算操作，快速设计实现各种机器学习和数据分析算法。Octopus能在底层无缝地集成和使用不同的大数据计算引擎和平台，完成大数据机器学习算法的分布和并行化执行，并支持单节点R环境以及Spark、HadoopMapReduce和MPI等多种大数据计算引擎和平台，并能实现这些平台间的无缝切换，实现“Write

Once，Run Anywhere”的跨平台特征。就我们所知，Octopus是目前世界上第一个具有跨平台特性，同时还能实现底层大数据平台对上层程序员透明化的大数据机器学习系统研究工作。

正如CCF大数据专家委员会发布的2014年《中国大数据技术与产业发展白皮书》中所说，目前大数据机器学习系统尚处在一个初期的探索和研究阶段，尽管国内外已经有不少研究开发工作，但研究设计高效、可扩展且易于使用的大数据机器学习系统仍面临诸多的技术挑战。因此，大数据机器学习系统将是目前和未来几年的热点研究领域，工业界和学术界都将持续地投入相当多的资源进行深入的研究开发工作。

同样，虽然初步研究设计了跨平台大数据机器学习系统Octopus，但其中仍然有大量需要进一步深入研究解决和完善的技术问题，例如大规模矩阵运算的深度优化、稀疏矩阵的存储管理和计算优化、异构大数据处理平台环境下不同矩阵计算时的平台自动选择、基于矩阵计算表达式和计算流图的计算优化等。此外，仅有矩阵计算模型还不能满足所有的大数据机器学习计算需求，还需要考虑其他计算模型，如图模型和参数模型（parameterserver）的混合使用，形成一个能满足各种大数据机器学习算法设计需求的综合系统。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

我的素质低

2016-3-2 11:27:28

4 大数据机器学习系统的分类
近几年来，随着大数据的来临，基于大数据的机器学习方法和系统成为业界和学术界普遍关注的研究热点。为了提供有效的大数据机器学习和数据分析手段，业界和学术界在尝试多种途径和方法，在不同的并行计算模型和平台下，在实际的数据分析挖掘中得到应用。
较早出现以及现有的一些大数据机器学习算法和系统大多采用较为低层的紧耦合、定制化方法构建。这些算法和系统大都针对特定的应用，选择特定的平台和模型，针对特定的机器学习模型和特定的计算模式，从串行算法和原型到分布并行化算法和原型，自底层向上进行紧耦合和定制化的开发和优化。尽管这可以最大化利用系统资源以达到最佳的性能，但这种低层的紧耦合定制化实现方法，将学习和系统混杂在一起，实现难度大，算法和系统也难以调试和维护[5,6]。
从前述的大数据机器学习系统特征来看，一个设计良好的大数据机器学习系统应当考虑高层的系统层抽象，向上为程序员提供易于使用的高层机器学习算法编程接口，向下基于现有的通用化大数据处理平台提供大规模数据的分布和并行化计算能力。为此，近年来已经开始出现基于各种高层编程计算和系统抽象设计大数据机器学习系统的研究工作。
在高层编程计算和系统抽象上，目前的大数据机器学习系统大致可分为3种主要的编程计算和系统抽象方法，分别是基于矩阵模型的抽象、基于图模型的抽象以及基于参数模型的抽象。
（1）基于矩阵模型的抽象
基于矩阵模型的抽象基于这样一个事实：大多数机器学习和数据分析算法都可以表示为矩阵或向量代数计算，因此可以构建一个基于矩阵计算模型的机器学习系统，允许程序员直接基于矩阵计算快速构建机器学习和数据分析算法。最典型的基于矩阵模型的大数据机器学习系统尚不多见，UCBerkeley AMP Lab推出的Spark MLlib是一个试图基于矩阵计算模型构建上层各种机器学习算法的系统；最近Spark系统提出了一个DataFrame的数据抽象机制，允许基于矩阵和表等数据结构，设计各种机器学习和数据分析算法。此外，国内由南京大学PASA大数据实验室研究开发的“Octopus（大章鱼）”系统是一个以大规模矩阵模型为中心的跨平台大数据机器学习系统。
（2）基于图模型的抽象
虽然矩阵可以表示大多数机器学习和数据分析算法，但对于一些基于图模型的社会网络分析问题，基于矩阵模型进行计算并非最有效的方法（虽然图和矩阵表示具有理论上的等价性）。矩阵模型对于图数据的表达不如图模型，且通常会面临稀疏性的问题。因此，一些社会网络分析类的实际应用需要基于更为高效的图模型的学习和分析方法，为此出现了相应的基于图模型的大数据机器学习系统。最典型的基于图模型的系统是美国卡耐基梅隆大学（CMU）推出的GraphLab系统[16]以及基于Spark构建的GraphX系统。

（3）基于参数模型的抽象

基于矩阵模型和图模型的系统主要是从数据表示模型的角度来构建系统，这两种方法的特点是更接近于实际学习问题中自然化的数据表示和计算模型，因此对于数据分析人员方便快速地构建机器学习和数据分析算法比较自然和直观。但是，大数据机器学习常常还需要涉及大规模模型，例如，近几年发展迅猛的深度神经网络算法，常常需要通过对大量模型参数的调优来提高学习精度，在这种情况下，上述两种方法会缺少灵活性，难以让算法设计者通过控制模型参数进行算法优化。为此，有研究者提出了一种基于模型参数的抽象方法，即把所有机器学习算法抽象为对学习过程中一组模型参数的管理和控制，并提供对大规模场景下大量模型参数的有效管理和访问。目前参数模型最典型的方法是最初由美国卡耐基梅隆大学的LiMu等人提出的、后在很多系统中得到进一步应用的Parameter Server[17，18]。
实际的系统也可能会是一种兼有上述多种类型的混合系统。此外，也有不少系统从并行模式角度来区分，分为数据并行和模型并行两种方式，且一些系统只提供数据并行方式，另一些系统会同时提供数据并行和模型并行两种方式。
5 典型大数据学习方法和系统介绍
5.1 基于特定平台的定制式并行化机器学习算法与算法库

随着Hadoop MapReduce[11]和Spark[12]大数据并行计算与编程平台的出现和成熟应用，Hadoop和Spark已经成为目前大数据分析处理的主流平台。为了解决大规模机器学习问题，有大量的研究工作致力于基于HadoopMapReduce和Spark以及传统的MPI并行计算框架，完成各种并行化机器学习和数据挖掘算法的设计。在诸如TPDS、JPDC、IPDPS、ICPP、ICPADS、IEEEBigData等大数据和分布并行计算领域的知名期刊和国际会议上，这些并行化算法研究工作不胜枚举。由于需要同时顾及上层机器学习算法设计和底层分布并行化大数据处理系统层细节，总体而言，基于上述不同的并行化编程方法和平台进行并行化机器学习算法设计，仍属于一种专业性较强、技术要求较高、过程较为繁琐的工作，难以为缺少分布式和并行计算知识背景的普通程序员使用。
为了让普通数据分析程序员能够直接使用并行化机器学习算法，目前普遍的一种做法是，在不同的并行化计算平台上，由专业的机器学习算法设计者实现并行化机器学习算法，提供一个机器学习和数据挖掘工具包以供一般的数据分析和应用开发程序员直接使用，如Hadoop下的Mahout以及Spark环境下的MLlib。
Mahout的主要任务是设计并提供一些基于MapReduce的可扩展的机器学习领域经典算法库，包括聚类、分类、推荐过滤、频繁项集挖掘等。这些并行化算法都是基于HadoopMapReduce平台完成的，用户可直接调用Mahout算法库实现好的算法。然而，Mahout提供的并行化机器学习算法数量有限，而且作为标准的软件包，其所提供的算法几乎都是标准的，在算法精度和性能上不一定能满足用户的需要。进一步，MapReduce的设计目标是解决数据密集但计算逻辑相对简单的批处理问题。然而，大多数机器学习算法的计算流程都比较复杂，模型的训练过程往往需要多次迭代计算（如梯度下降算法）、有中间数据集需要共享等。MapReduce模型处理这类问题时，额外的调度和初始化开销导致其处理性能偏低。
为了克服MapReduce在计算性能上的缺陷，不断地有新的并行化计算模型和框架出现，UCBerkeley AMP实验室推出的、目前已成为Apache开源项目的Spark[12]系统是目前最有影响力的大数据处理平台之一。Spark使用基于内存计算的并行化计算模型RDD（resilientdistributed dataset）[12]，提供了一个强大的分布式内存并行计算引擎，实现了优异的计算性能，同时还保持与Hadoop平台在底层分布式数据存储上的兼容性。在Spark执行引擎上，AMP实验室实现了很多机器学习算法，并逐步整理成Spark下的一个机器学习算法库项目MLlib。MLlib目前也包含一些矩阵操作，并希望基于矩阵的表示设计开发一些统计包和机器学习算法库。为了加速上层计算，MLlib底层通过Breeze使用了BLAS（basiclinear algebra subprogram）单机的矩阵函数库。BLAS是很多更高层的数学函数库和数学编程语言（如LAPACK和MATLAB等）的基本构成单元。BLAS和LAPACK是当下普遍使用的线性代数函数库，主要定义了一些线性代数中常用的运算操作和方程求解、矩阵分解的函数。此外，基于MLlib的工作基础，UCBerkeley还计划研发MLBase[9]项目，该项目增加了机器学习模型自动选择和参数自动优化等功能，提供了以目标为导向的高层机器学习方法接口。
提供机器学习算法库在一定程度上减轻了程序员进行机器学习算法设计的负担。但即使如此，程序员编写程序时仍然需要熟悉具体的并行编程计算模型和平台，而且由于实际数据分析应用的需求不同，很多时候工具包所提供的通用算法在学习精度和计算性能上可能不能满足需求，需要程序员定制和改进某个并行化机器学习算法或者开发新的算法，这对普通数据分析程序员仍然是很大的挑战。
5.2 结合传统数据分析平台的大数据机器学习系统
虽然有了基于大数据处理平台的机器学习算法设计方法，能够较好地解决一体化的大数据存储、计算以及并行化算法设计问题，但仅有机器学习系统仍然不能很好地解决各个平台对终端用户存在的可编程性和易用性不够的问题。为此，还需要进一步研究解决这些问题。

从可编程性和易用性角度来说，对于行业数据分析师，最熟悉使用的分析语言和环境通常是R、Python、MATLAB等系统。R是目前在数据分析应用领域最广为使用的数据分析、统计计算及制图的开源软件系统，提供了大量的专业模块和实用工具。为了尽可能缩小R语言环境与现有大数据平台间的鸿沟，工业界和研究界已经尝试在R中利用分布式并行计算引擎来处理大数据。最早的工作和系统RHadoop，是由RevolutionAnalytics发起的一个开源项目，其目标是将统计语言R与Hadoop结合起来，目前该项目包括3个R package（包），分别为支持用R语言编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBase的rhbase。其中，Hadoop主要用来存储和处理底层的海量数据，用R语言替代Java语言完成MapReduce算法的设计实现。
类似地，UC Berkeley AMP实验室在2014年1月也推出了一个称为SparkR的项目。SparkR也是作为一个R的扩展包，为R用户提供一个轻量级的、在R环境里使用SparkRDD API编写程序的接口。它允许用户在R的shell环境里交互式地向Spark集群提交运行作业。
然而，目前的RHadoop和SparkR都还存在一个同样的问题：仍要求用户熟悉MapReduce或SparkRDD的编程框架和程序结构，然后将自己的MapReduce或Spark程序实现到基于R的编程接口上，这和在Hadoop或Spark上写应用程序没有太大的区别，只是编程接口用R语言封装了一下。此外，这些工作都是基于单一平台，无法解决跨平台统一大数据机器学习算法设计的问题。
5.3 基于特定平台的大数据机器学习系统
为了克服前述做法的缺陷，近年来，学术界和业界开始尝试总结机器学习算法设计的共同特性，结合大规模学习时所需要考虑的底层分布式数据存储和并行化计算等系统问题，专门研究能同时兼顾并支持大数据机器学习和大数据分布并行处理的一体化大数据机器学习系统。
在国内外的机器学习和大数据技术方面的会议中，已经频繁出现大数据机器学习系统相关的研究工作，如SparkMLlib、IBM的SystemML、Apache Flink、GraphLab、Parameter Server、Petuum等；此外，腾讯、百度等国内著名互联网企业也推出了不同的面向大数据的分布式机器学习系统，如腾讯的Peacock和Mariana大规模机器学习系统、百度的ELF和百度机器学习云平台BML。
（1）Spark MLlib
MLLib与Spark环境整合后可完整解决大数据的分布式存储、并行化计算以及上层的机器学习算法设计和使用问题，因此，可将其视为一个基本的机器学习系统。目前其已经向上层提供多种优化方法、分类算法、回归算法、推荐算法、聚类算法。但其算法数目和接口有限，难以完全满足用户各种各样的需求，且作为一个算法库，用户难以对内部算法进行深层定制优化。因此，其在灵活性方面仍然存在不足。
（2）SystemML
SystemML[14,15]是由IBMWaston Research Center 和IBM Almaden Research Center联合研发的一款大数据学习系统。对用户提供了一个类似于R语言的高层声明式语言，基于这种语言编写的程序可以被自动编译转化为MapReduce作业在Hadoop集群上运行。这种高层语言提供了大量的监督和非监督的机器学习算法所需要的线性代数操作算子，包括高层算子HOP（high-leveloperator）和底层算子LOP（low-level operator）。SystemML最大的优势是其具有较好的可编程性和易用性，用户不需要具备任何分布式系统的概念或编程经验，即可利用其写出可扩展的机器学习算法；其最大的缺点在于底层计算平台单一，只采用了MapReduce作为底层分布式执行平台，而底层的MapReduce作业本身执行性能并不高，近年来涌现出的高效分布式计算框架如Spark、Flink等，在众多性能指标上远远高于MapReduce。
（3）Apache Flink
Apache Flink[19]是由欧洲的多名研究者和多家资助单位（如EIT1ICT Labs、DFG2、IBM、Oracle、HP等）联合研发的一款开源的并行化数据分析软件栈，项目早期的名称是Stratosphere。经过一段时间的发展，目前已经成为Apache开源项目。Flink同样意识到，数据分析人员在分布式系统上编写大数据分析算法时，需要有大量的精力耗费在分布式程序调试以及底层调优上。为了使数据分析人员能够在无需顾及各种并行化优化问题的情况下就可以进行深度数据分析，Flink提供了一款数据分析栈式软件。它向用户提供了一种专用的脚本式语言MeteorScript，并且会自动将基于该语言开发的程序转换到底层的分布式计算平台Nephele上[20]。由于其专用性语言不够普及，目前系统对语言接口又做了更多的扩充，支持Java、Scala等语言。Flink项目的优势在于其从上到下提供了一整套完整的栈式解决方案，试图为用户提供易于使用的数据分析系统，同时通过一些编译优化手段尽可能地提升程序执行的性能；其缺点在于其底层是专用的单一化计算平台，与目前普遍使用的主流大数据平台Hadoop和Spark尚未能集成使用，且上层的语言接口层也没有包含现在数据分析师广为使用的R、Python等语言接口。
（4）GraphLab
GraphLab[16]是CMU开发的一个以顶点为计算单元的大规模图处理系统，是一个基于图模型抽象的机器学习系统。设计初衷主要是解决具有以下特点的机器学习问题：有局部依赖的稀疏数据集、迭代可收敛、异步执行。为了实现这个目标，GraphLab把数据之间的依赖关系抽象成Graph结构，以顶点为计算单元，将算法的执行过程抽象成每个顶点上的GAS（gather、apply、scatter）过程，其并行的核心思想是多个顶点同时执行。GraphLab的优点是能够高效地处理大规模图算法问题或者可归结为图问题的机器学习和数据挖掘算法问题；其缺点在于提供的接口细节比较复杂，对于普通的数据分析程序员而言，有较大的使用难度。
（5）ParameterServer与Petuum
很多机器学习算法常常要解决学习训练过程中模型参数的高效存储与更新问题。为了有效应对和满足大数据场景下这类机器学习算法的需要，研究者提出了一种称为ParameterServer的框架[17]，提供了一个分布式全局模型参数存储和访问接口，模型参数存储在多台服务器（server）中，工作节点（worker）可以通过网络访问API方便地读取全局参数。
Li Mu等人开发了一套基于ParameterServer框架的分布式机器学习系统[17]，该系统由一个服务器组（server group）和多个工作组（worker group）构成。其中，服务器组中包括一个服务器管理（servermanager）节点和多个服务器节点。每个服务器节点存储部分全局共享参数；服务器管理节点用来存储服务器节点的元信息，并通过心跳机制管理所有服务器。在该系统中，每个工作组包含一个任务调度器（taskscheduler）和多个工作节点，工作节点只与服务器节点通信获取全局参数以及推送局部更新，不同的工作组可以同时运行不同的应用。ParameterServer的优点是为大规模机器学习提供了非常灵活的模型参数调优和控制机制；缺点是缺少对大规模机器学习时的数据及编程计算模型的高层抽象，使用较为繁琐，通常比较适合于机器学习算法研究者或者需要通过调整参数深度优化机器学习算法的数据分析程序员使用。
国际著名的机器学习专家、美国卡耐基梅隆大学机器学习系EricXing教授是大数据机器学习系统的倡导者。他认为，传统的机器学习研究过于简化机器学习算法本身的问题以及大规模数据机器学习存在的系统问题[21]。由于大规模机器学习存在很多新的挑战，近几年来主要致力于大数据机器学习系统的研究，并领导其SAILING实验室研究实现了大数据学习系统Petuum[18，21]。Petuum也是一个基于Parameter Server框架的系统，关键组件包括ParameterServer和调度器。Petuum的Parameter Server中使用SSP（stale synchronous parallel）一致性模型，允许计算速度慢的节点从本机缓存中读取陈旧的参数值，以此大大节省网络开销和网络等待时间，使得慢机器的大部分时间用在计算而不是等待上。Petuum在使用上需要算法设计者对分布式系统概念和系统有一定了解，其易用性仍有一定的限制，且其底层数据存储和并行计算框架与上层的学习算法层以紧耦合的方式全部自己实现，系统实现复杂性和代价较大。
（6）腾讯Peacock与Mariana深度学习平台

Peacock[3]是腾讯公司研发的一个大规模LDA主题模型训练系统。该系统通过并行计算可对10亿×1亿级别的大规模矩阵进行分解，从而从海量文档样本数据中学习10万~100万量级的隐含语义。为了完成大规模处理，Peacock基于吉布斯采样的LDA训练算法进行了并行化设计，并设计实现了一个完整的具有大规模样本数据处理能力的训练系统。Peacock已广泛应用在腾讯的文本语义理解、QQ群推荐、用户商业兴趣挖掘、相似用户扩展、广告点击率转化率预估等多个业务数据中，是一个专为LDA并行化计算而定制的大规模训练系统，不是一个通用化的大数据机器学习系统。
为了提供更为广泛的大规模并行化机器学习处理能力，腾讯研究构建了一个称为Mariana的深度学习平台[22]，该平台由3套大规模深度学习系统构成，包括基于多GPU的深度神经网络并行计算系统MarianaDNN、基于多GPU的深度卷积神经网络并行计算系统Mariana CNN以及基于CPU集群的深度神经网络并行计算系统Mariana Cluster。Mariana可提供数据并行和模型并行计算，基于GPU和CPU集群提升模型规模，加速训练性能。其中，MarianaDNN在腾讯内部用于微信语音识别声学模型训练，可训练超过1万小时的语音数据、超过40亿的数据样本以及超过5 000万的参数，相对于单GPU而言，6GPU可实现4.6倍的加速比；而MarianaCNN用于微信图像识别，可训练2 000个以上的分类、300万以上的数据样本以及超过6 000万的参数，相对于单GPU而言，4GPU可实现2.5倍的加速比，在图文类效果广告点击率提升方面也取得初步应用；MarianaCluster实现了一个基于Parameter Server模型的大规模通用化机器学习和训练系统，主要用于进行大规模广告并行化训练，完成广告点击率预估模型训练和广告点击性能优化。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群