资源描述
中国机器学习白皮书中国人工智能学会二一五年十一月1中国人工智能系列白皮书编委会主任:李德毅执行主任:王国胤副主任:杨放春谭铁牛黄河燕焦李成马少平刘宏蒋昌俊任福继杨强委员:陈杰董振江杜军平桂卫华韩力群何清黄心汉贾英民李斌刘民刘成林刘增良鲁华祥马华东马世龙苗夺谦朴松昊乔俊飞任友群孙富春孙长银王轩王飞跃王捍贫王万森王卫宁王小捷王亚杰王志良吴朝晖吴晓蓓夏桂华严新平杨春燕余凯余有成张学工赵春江周志华祝烈煌庄越挺中国机器学习白皮书编写组组长:陈松灿高阳组员:黄圣君李武军薛晖俞扬余志文詹德川詹志辉张利军张敏灵庄福振2目录第1章引言.1第2章主流机器学习技术进展.32.1度量学习.32.2多核学习.72.3多视图学习.102.4集成学习.142.5主动学习.182.6强化学习.22第3章新兴机器学习技术选介. 273.1迁移学习.273.2深度学习.313.3统计关系学习.343.4演化学习.36第4章大数据时代的机器学习. 414.1并行机器学习.414.2哈希学习.464.3在线学习.48第5章结束语.521第1章引言“机器学习”(Machine Learning)是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能1。机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材Machine Learning中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”2。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是数据的智能分析与建模。随着信息技术不断向网络化、低成本方向发展,人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。例如,美国科学院、工程院两院院士T. J. Sejnowski等人2009年在Science上撰文指出,机器学习正成为发展新的学科的基础之一3;美国政府2012年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的国家中长期科学和技术发展规划纲要(2006-2020年)中,以机器学习为核心的“智能”关键词在目录中6次出现。特别值得一提的是,计算机界最高奖图灵奖在2010年与2011年连续两年授予机器学习领域的两位杰出学者(L. Valiant,2010年度;J. Pearl,2011年度),这标志着机器学习经过30余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。本白皮书旨在简要阐述当前机器学习领域的研究和应用现状,主2要包括三方面内容:第2章对机器学习领域主流学习技术的研究进展进行了介绍,包括度量学习、多核学习、多视图学习、集成学习、主动学习以及强化学习;第3章对近年来新兴的机器学习技术做了选介,包括迁移学习、深度学习、统计关系学习以及演化学习;第4章对大数据时代一些重要机器学习技术进行了介绍,包括并行机器学习、哈希学习以及在线学习。在内容组织上,各章节主要包括背景介绍以及相关技术进展,并在必要时对所涉及的产业应用及未来可能的研究方向进行了讨论。3第2章主流机器学习技术进展2.1度量学习度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K近邻分类器、使用了高斯核的核方法;在聚类方法中,K均值聚类、谱聚类方法都与距离度量密切相关。一般来说,对于任意样本x, y, z而言,距离度量函数需要满足自反(任意样本到自身的距离为0)、对称(x到y的距离等于y到x的距离)、非负(任意样本对之间的距离大于等于0)以及直递(三个样本之间的距离满足三角不等式)等性质。为了适应不同的具体应用场景,人们提出了诸如闵可夫斯基距离(欧几里得距离、曼哈顿距离、切比雪夫距离均为其特例)、马氏距离、海明距离等距离度量函数,并针对某些特定问题,提出了一些衍生距离度量,例如,动态时间规整距离DTW4,推土机距离EMD5等。随着机器学习应用面的日益拓展,通过人工设计或定义特定的衍生距离度量函数未必吻合面对的问题,因此,通过学习获得问题相关的度量成为研究主题,卡内基梅隆大学机器学习系的邢波教授于2003年提出了距离度量学习6。在随后的10余年里,各类距离度量学习方法不断被提出,并在诸如社交网络连接预测、强化学习的状态连接学习、信息检索与推荐、身份验证、甚至医疗效果评估等方面都获得了广泛应用。对距离度量学习的研究首先始于对马氏距离的深入探讨。对于任意两个d维样本,其马氏距离的平方定义为.其中M是度量矩阵,并且为了保持距离的非负对称性,M应当为对4称半正定矩阵。一般的距离度量学习针对度量矩阵M展开。例如:E.Xing等人提出的距离度量学习方法在已知某些样本在语义层面相似、某些样本相异的语境下,通过引入必连(must-link)和勿连(cannotlink)约束集概念(分别记为和,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集),学习出一个满足给定约束的度量矩阵,为此设法学到一个M,使相似样本间距离尽量小、同时相异样本间距离尽量大,即优化如下式所列的约束优化问题6:其中限定M半正定。考虑到度量矩阵的对称正定性,必然存在正交基P,使得,也即对度量矩阵M的学习,等效于学习一个线性空间变换矩阵P。更进一步地,若M是一个低秩矩阵,那么存在正交基,该正交基可以作为降维矩阵使用。也即低秩距离度量学习可以衍生出一个降维方法。图2-1给出了对距离度量学习(等效于对空间进行线性变换)前后3近邻分类结果变化的示意图。图2-1距离度量学习前后3近邻分类效果示意图,问号为测试样本,训练样本分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取的作用得到了放大/缩小,从而导致3近邻分类结果出现差异,分类为红。必连、勿连约束往往来自于样本的标记信息,而且约束所有的样5本,故而使用必连、勿连约束的距离度量学习方法往往是全局度量学习方法,此类方法的代表还有:将必连约束刻画为等价关系的相关成分分析7;使用对数行列式(logdet)差异度作为正则项的信息论度量学习8;全局距离度量学习也被多个知名研究团队推广到在线学习环境910。图2-2 LMNN学习前后,黄色圆点为同类训练样本,其他异色方块为类别不同的样本。LMNN学习得到的度量旨在局部区域将同类样本点拉近、异类样本点排斥开,并在同类和异类样本之间建立一个边界区域以便于kNN取得较好的分类效果。不同于这些全局度量学习方法,Weinberger和Saul提出了一种利用邻域内三元关系进行度量学习的方法LMNN11,图2-2给出了LMNN方法的直观示意。在LMNN中所有的约束关系都限于某个样本的局部邻域,故此类方法也被称为局部距离度量学习方法。自LMNN提出后,局部距离度量学习方案得到众多研究者的青睐,多种扩展方案被分别提出,例如,能处理多任务的mt-LMNN16,可在不同集簇中学习多个度量的mm-LMNN12等;在局部距离度量学习方面,Huang等人提出了能够处理一定噪音和错误的鲁棒度量学习方法RML13;Chechik等人借鉴LMNN的思想,直接对内积形式的相似6度利用局部约束加以学习,并将相关算法运用于大规模图像检索,取得了很好的效果14;利用与局部距离度量学习类似的思想,研究者不仅针对马氏距离度量矩阵进行学习,甚至对前述的EMD距离进行了学习,例如-LMNN就针对与直方图类特征对应的EMD距离进行学习15;在局部信息和性质的利用方面,有些研究者甚至为每个样本都学习了合适的距离度量16。随着数据收集手段的提升,大数据时代已经开启。在大数据情境下,距离度量学习和降维之间的关系得到了研究者的关注。事实上,早在2003年Goldberger等人提出的NCA一文中就明确指出距离度量学习和降维之间的关系17,Bellet等人在2005年就明确指出:几乎每种线性距离度量学习方法都对应着一类降维策略18。在意识到距离度量学习和降维的关系之后,研究者们提出了很多能够直接进行降维或者利用降维能力简化计算的距离度量学习方法。例如,Shi等人提出在有限基上进行距离度量学习,其中仅需学习一组基的线性组合系数即可,从而消减了距离度量学习的计算量19。值得注意的是,除了降维之外,距离度量学习研究者们也设计出了独到的高维数据处理方法,如Qian等人于2014年提出了一种基于随机投影的距离度量学习方法,通过随机投影降低数据维度,并通过对偶空间的基重构获得原空间的距离度量20;Schultz和Joachims、以及Gao等人都提出了学习一个对角距离度量矩阵代替学习完全的度量矩阵的替代方案等2122。此外,最近兴起的稀疏学习技术在距离度量学习研究中也获得了运用23。距离度量学习同样在计算机视觉、信息检索和生物信息学相关领域受到关注。在计算机视觉领域,距离度量学习除了被用于图像分类24、物体识别25、视觉追踪26之外,还在一些计算视觉的本质问题,如图像表示方面等,被加以利用;信息检索的结果对距离和相似度的定义十分敏感,因此这方面的工作也相对丰富2728;对DNA和蛋白7质分子的结构分析涉及诸如编辑距离和DTW方面的研究,度量学习在这些特殊距离度量处理方面也有对应的研究工作2930。2.2多核学习核方法是机器学习中一类强有力的统计学习技术,被广泛应用于分类、回归、聚类等诸多领域。核选择是核方法的关键内容,因其是提高核方法泛化性能的重要一环。多核学习(Multiple KernelLearning,MKL)通过利用多个基本核的组合代替单核,将核选择问题转化为对组合系数的选择,有效地改进了核方法。其最早应用于生物信息学领域,例如在蛋白质功能预测与定位、蛋白质分子间的交互预测等问题中,由于来自异构源的数据具有不同的特性,可以通过多个基本核矩阵的线性组合实现异构数据源的融合,基于此训练分类器取得了很好的性能。构造多核模型,最基本的方法就是考虑多个基本核函数的凸组合:1( , ) ( , )M i iiK Kx x ,0i ,1 1M ii 其中( , )iK x 是基本核函数,M是基本核的总个数,i是组合系数,条件0i 可以确保由此产生的Gram矩阵是半正定的。因此,在MKL框架下,样本在特征空间中的表示问题转化为基本核与组合系数的选择问题31。在这个由多个特征空间构建的组合空间中,利用了各个基本核的特征映射能力,通过将异构数据的不同特征分量利用对应的核函数进行映射,使数据在新的特征空间中得到更好的表达,能显著提高分类性能31。MKL的本质问题就是,如何得到这个组合的特征空间,即如何通过学习得到组合系数31。近年来,研究者们提出了一系列MKL算法,主要侧重于算法的优化求解和性能提高两个方面。Lanckriet等人考虑组合系数和分类器参数的联合优化,提出了基于二次约束二次规划问题的MKL算法32,但是算法仅适用于具有少量样本和核的小规模问题。Bach等人进一步提出了一种新对偶形式,8将其刻画为二次锥规划问题,可利用Moreau-Yosida正则化,采用序列最小优化算法求解33。Lanckriet等人通过在核矩阵中综合考虑训练样本和测试样本,利用半定规划技术实现了核矩阵的学习问题,也为MKL提供了一种渐近直推式算法34。Sonnenburg等人在多核矩阵锥组合的基础上,将Bach等人的对偶形式改写为半无限线性规划问题,可利用线性规划方法迭代求解组合系数和分类器参数,并可推广到回归、单类分类等学习问题35。但是,这种迭代算法在收敛到一个合理解之前,需要过多的迭代运算,计算效率仍然不高31。Rakotomamonjy等人用一种自适应的l2-范数正则化方法来考虑MKL问题,每个核矩阵的组合系数被包含在经验风险最小化问题中,并利用l1-范数约束以提高解的稀疏性36,然后采用了一种基于分块l1-范数正则化的算法来求解,显著提高了算法的收敛速度和效率37。Xu等人认为求解大规模多核学习的次梯度下降方法和半无限线性规划方法均存在不足:前者仅利用了当前解的梯度,后者在割平面模型中得到的近似解有可能远离最优解。因此,扩展了最初为非光滑目标函数优化而设计的水平方法,利用了之前迭代过程中的所有梯度,通过向水平集投影对解进行修正,从而克服了这两种方法的缺点38。Xu等人进一步利用MKL和分组Lasso之间的一致性优化组合系数,得到了一个闭式解,从而提出了一种新的MKL求解方法并可推广到lp-范数的情况39。Vishwanathan等人利用序列最小优化算法训练以lp-范数平方或Bregman散度为正则化的线性MKL,保持了算法简单性和高效性40。Jin等人基于贪婪坐标下降算法,提出了一种新的稀疏MKL算法,不但保持了解的稀疏性,而且在适当的条件下能够达到几何收敛率41。除了研究如何高效求解MKL优化问题,研究者们还从核的非稀疏性以及组合方式等角度出发,深入探讨了提高MKL算法性能的方法。在多核学习中最常用的是组合系数的l1-范数约束,其优势在于可提高核组合的稀疏性31。然而,Kloft等人认为尽管稀疏的核组合9能够提供很好的可解释性并提高计算效率,但当某个问题多个特征编码间具有正交性时,稀疏性可能导致有用信息的丢失和泛化性能的下降31。因此,他们通过对组合系数引入l2-范数约束,提出了非稀疏的MKL算法,显著提高了MKL算法在抗噪声和特征集冗余方面的鲁棒性31。此后,Kloft等人又将l2-范数约束推广到任意的lp-范数,采用牛顿下降法和割平面法求解,进一步增强了MKL的通用性和鲁棒性42。另一个可能的拓展是探索核的组合方式或混合范数组合31。Varma和Babu研究了核的非线性组合,将l1-范数约束推广至任意的可微函数约束,提出了推广的MKL算法43。Jain等人进一步提出了一种谱投影梯度下降优化算子,通过考虑步长选择中的二阶信息,采用了一个非单调步长选择策略,有效地提高了该算法的鲁棒性和计算效率44。Hinrichs等人将l1-范数和l2-范数约束推广至二次函数带权约束,嵌入了核中的聚类结构,以挖掘核间的高阶信息45。Cortes等人在回归问题中研究了核的多项式组合问题,采用了投影梯度下降算法求解优化问题46。近年来,多核学习已被成功应用于机器学习的许多领域,如多示例学习、半监督学习、增量学习等4748,并在生物特征识别、无人机、信息检索等领域得到了广泛应用。例如,在虹膜图像检测方面,研究者利用多核学习,融合了频谱能量分布、奇异倒谱直方图等多个特征,有效地提高了检测效果。在医学诊断方面,多核学习可克服采用单一核函数所导致的多个检测指标很难同时兼顾的问题,充分发挥了多个核函数不同的刻画能力,提高了检测算法的泛化能力和鲁棒性,较好地提升了诊断的准确度和敏感度,为医学诊断提供了更准确的信息。在无人机故障诊断方面,多核学习在单核的基础上,进一步融合了无人机平飞时俯仰角速率、爬升和下滑两种纵向飞行模态时速率陀螺发生冲击、偏差、卡死、乘性故障时俯仰角速率等多源数据信息,达到了更高的故障诊断准确性。在高光谱遥感图像分类方面,多核学习实10现了空间特征和光谱特征的联合分类,分别从高空间分辨率的可见光图像和高光谱分辨率的高光谱图像中提取空间特征和光谱信息,构建多特征多核学习模型,有效地提高了空谱特征可利用性和高光谱遥感图像分类效果。尽管多核学习取得了上述诸多优越性能,但其仍存在一些问题亟待解决。首先,基本核的选择和组合方式缺乏理论依据。多核学习中的很多方法都是基于有限个基本核的线性组合加以讨论,基本核的选择也大都是启发式的。当面对一些复杂问题时,这些方法未必有效,有限个核函数融合的决策函数的性能也不可能达到处处最优。将多核学习由有限核向无限核扩展,以及考虑基本核的非线性组合方式,是一个重要的研究方向,现有的相关研究才刚刚起步。此外,目前的多核学习大多选择满足Mercer条件的正定核为基本核,但在实际应用中存在着大量的不定核,将不定核与多核学习相结合具有重要的理论与应用价值。其次,在“大数据”背景下,如何将多核学习扩展至大规模学习问题中需要进一步研究。对于大规模数据集,由于涉及到多核矩阵的快速求解、高维多核扩展矩阵的各种分解等问题,通常的多核学习方法的学习效率会很低,如何提高其学习速度值得我们进行深入的探讨。2.3多视图学习伴随着“大数据”时代,数据的采集越来越呈现出多源异构特性,在越来越多的实际问题中存在着大量对应着多组数据源的样本,即多视图数据。如图2-3所示49,每个因特网网页可被表示为其所含文档和指向它的超链接;一幅网页图像可被表示为其周围的文本和视觉信息;3D物体的图像可能来源于不同的视角;视频片段可被表示为声音信号和视频帧;语言文件在不同的语言中具有不同的表示等等。这些不同视图的数据中蕴含着大量的先验知识,如何从中获取更多的有用信息以有效地指导学习,即设计有效的多视图学习模型正逐步成为11机器学习的研究热点之一。图2-3多视图数据多视图学习与多核学习之间具有天然的联系,这是因为不同的核函数自然地对应着不同的视图,多核学习为多视图学习提供了一种融合不同视图数据和不同结构数据的有效方式。除此之外,典型的多视图学习模型还包括协同训练和子空间学习。协同训练是最早的多视图学习范式之一,由Blum和Mitchell于1998年提出50。其来源于半监督学习问题,算法首先利用有标号样本在两个视图上分别训练一个朴素贝叶斯分类器,然后每个分类器从无标号样本中选出若干预测置信度较高的样本进行标记,并将其加入到另一个视图的有标号样本数据集中,随后用扩充后的有标号数据集在每个视图上重新训练分类器,直至达到某一终止条件50。Nigam和Ghani进一步在两个视图上利用期望最大化算法,对无标号样本赋予一个可变的概率标记,而非一个明确的类标号,有效地提升了算法性能51。Sindhwani等人将最大化无标号样本上的一致性刻画为两个希尔伯特空间中的协同正则化问题,通过选取不同的正则化框架,如12Tikhonov正则化、流形正则化等,优化不同视图上数据的一致程度和光滑程度52。Zhou和Li进一步将协同训练的思想推广至回归问题,提出了协同回归算法53。Bickel和Scheffer研究了无监督情况下的协同训练算法,提出了k-means、k-medoids等经典聚类算法的多视图学习模型54。子空间学习假设所有视图都由一个潜在的子空间产生,进而直接利用所有的视图,以期获得这样的子空间。典型相关分析是运用最为广泛的多视图降维算法,其为每组视图数据寻找一个投影向量,使两组视图数据在投影后的低维空间中相关性最大,本质上属于无监督方法。在有监督的情况下,Yu等人将样本数据作为一个视图,样本的类标号作为另一个视图,有效地将类信息引入到了降维过程中55。但是,这种方法本质上属于单视图学习范畴,并非真正的多视图学习。Sharma等人将多种经典的监督和无监督特征抽取方法刻画成二次约束二次规划的特殊解形式,进而提出了广义多视图分析算法,推广了有监督的典型相关分析方法56。Zhou等人利用典型相关分析,提出了只有一个有标号样本的半监督学习算法,其通过度量无标号和有标号样本之间的相似性,将若干具有最高和最低相似性的无标号样本分别选为正类和负类样本,进而可应用传统的半监督学习方法求解57。除了典型相关分析算法,多视图子空间学习方法还包括多视图Fisher判别分析、多视图谱嵌入、多视图度量学习等。在过去的十年中,多视图学习取得了长足的发展,并拓展出很多新的研究领域,诸如异质多视图学习、多态学习等。异质多视图学习不仅假设每个学习任务的特征来源于多个视图(特征异质),更假设不同的学习任务之间通过一个或多个共享的视图相关联(任务异质)。He和Lawrence提出了一个基于图的框架以利用多个任务和视图的信息,但是这个框架是直推式的,不能预测未见样本,而且只能处理具有非负特征的问题58。Zhang和Huan利用协同正则化,保证学习器13在不同视图的无标号样本上彼此一致59。但是,该算法要求所有的任务都彼此相似,这显然是不合理的。Jin等人进一步提出了一个共享结构学习框架,打破了上述限制,其从多个相关任务的共同视图上学习共享预测结构,并利用不同视图上的一致性提高性能60。多态学习研究不同模态样本之间的学习问题,比如图像和语句之间的关联就可刻画为多态匹配问题。Hodosh等人利用核典型相关分析算法挖掘图像和语句之间的共享特征空间,但是基于浅层表示的图像和语句通常具有高度的非线性性,导致了模态间的关联很难被挖掘61。Ma等人进一步使用卷积神经网络刻画图像、将语句中的词组成不同的语义片段,学习图像和语义片段之间的匹配关系和相互作用,取得了很好的性能62。伴随着理论研究的发展,多视图学习亦被广泛应用于许多产业领域。例如,在垃圾网页检测中,多视图学习可综合利用基于内容作弊和基于链接作弊的多网页特征,对垃圾网页进行更有效地检测;在微博话题检测中,多视图学习可整合微博中的文本语义关系和社会化关系,克服传统的基于纯文本话题检测方法的不足;在网络入侵检测中,多视图学习可针对多种不同的入侵类型,如拒绝服务、网络嗅探、远程非法登入、非法权限提升等,在特定的属性空间中进行检测,以获得更好的检测效果;在跨语言信息检索中,对同一个自然语言描述对象,多语言的信息表示是该对象赋予不同语言符号系统的字符串表示,可自然地表示为该对象的多个视图,这些视图在本质上是语义等价的,多视图学习可充分利用这些视图的信息,取得较好的检索性能。虽然目前多视图学习在理论分析和应用研究上取得了一定的进展,但其仍然存在值得进一步研究的问题:第一,视图的构造、分析和评价。多个不同的视图是多视图学习的根本,其性质不可避免地将对多视图学习的性能产生关键影响。如何构造多个视图数据、如何评价多个视图数据的有效性等一系列问题,都是多视图学习中的重要研14究内容。第二,多视图学习框架的建立。协同训练、多核学习和子空间学习提供了三种不同的多视图组合方式,但目前对于三者的研究仍是相对独立的,如何建立一个融合不同方法优点的多视图学习框架亦值得深入研究。第三,多视图研究领域的扩展。立足于实际问题,异质多视图学习、多态学习等新兴研究领域的出现为多视图学习提供了更加广阔的发展前景,而目前对于这些领域的研究仍处于起步阶段,对其的深入探索必将为多视图学习提供更多的发展机遇。2.4集成学习与单一的学习模型相比,集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确、稳定和强壮的结果。近年来,各种各样的集成学习模型相继被提出,并应用于各种类型的数据集中6364。集成学习能够把多个单一学习模型所获得的多个预测结果进行有机地组合,从而获得更加准确、稳定和强壮的最终结果。集成学习的原理来源于PAC学习模型(Probably Approximately Correctlearning)。Kearns和Valiant最早探讨了弱学习算法与强学习算法的等价性问题65,即提出了是否可以将弱学习算法提升成强学习算法的问题。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督集成学习模型和非监督集成学习模型。监督集成学习模型,又称为分类集成学习模型(classifier ensemble),包括一系列常见的分类技术,如:bagging66、boosting67、随机森林68、随机子空间69、旋转森林70、基于随机线性预测器的集成技术71、神经网络集成技术72等等。一方面,Adaboost算法是学习过程集成的典型例子。它在学习过程中不断地调整训练样15本的权重,从而把多个弱分类器有机地结合成一个强分类器。另一方面,bagging技术是学习结果集成的典型例子。它通过合适的投票机制把多个分类器的学习结果综合为一个最具代表性的结果。如:图2-4显示了学习结果集成的基本框架图。当给定一个训练集,集成学习首先通过一系列的数据映射操作,如:采样、随机子空间、扰动、投影等,生成多个不同的新训练集。新训练集之间,以及新训练集与原训练集尽可能不同。这样,我们才能够探索样本在相对稳定的类结构下的不同的表现形式。与此同时,要确保新训练集仍然保持原有的相对稳定的类结构。然后,集成学习采用新训练集训练一种或多种基本分类器,并通过选择合适的投票机制,形成组合分类器。最后,运用组合分类器对测试集中的样本进行预测,获取这些样本的标记。图2-4 Bagging集成基本框架图图2-5显示了Adaboost集成基本框架图。当给定一个原始训练集,Adaboost算法首先赋予训练集的每个样本相等的权重系数,然后用这图2-5Adaboost集成基本框架图16些样本训练一个弱分类器,并对原始训练集的样本进行预测,接着更新训练集样本的权值。标记预测错误的样本,权重减少;标记预测正确的样本,权重增加。最后,Adaboost获得权值更新的训练集。算法不断地重复之前的步骤,不断生成新训练集,不断训练新的分类器,直到获得一组分类器。这组带权重系数的分类器将用于预测测试集中样本的标记,并获得最终结果。图2-6显示了随机子空间集成基本框架图。当给定一个原始训练集,该算法首先对属性维进行随机采样,生成一组随机子空间;然后在子空间中生成相应的训练集,并用不同子空间下的一组新训练集来训练出一组分类器。在测试阶段,首先把测试集中的样本投影到相应的子空间中,然后用子空间的分类器预测样本标记,最后通过合适的投票机制把所有的预测结果进行综合,从而获得最终结果。半监督集成学习模型包括多视图学习模型、共性最大化学习模型等。非监督集成学习模型,又称为聚类集成(cluster ensemble)或一致性聚类(consensus clustering),最早由Strehl所提出。经过多年的研究,大量的聚类集成学习模型被提出来,如:基于图论的聚类集成算法、基于多次谱聚类的聚类集成算法、混合模糊聚类集成算法等。图2-6随机子空间集成基本框架图17然而集成学习模型的性能往往受到外在环境(如:样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型不但能够考虑到集成模型的内在环境,而且能够把握集成模型和外在环境之间的关系73。自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上,从多个不同角度加入自适应学习过程,从而获取最优的集成学习模型。国际上与集成学习模型的相关研究工作还很多,以上只是列举了部分经典的研究工作的情况。国内许多著名的专家学者也在集成学习模型上做了很多的研究,如:周志华教授的团队等,在此不一一列出。如需了解更多信息,可参考周志华教授关于集成学习的新书74。集成学习未来的发展趋势主要有两大块:集成学习模型的优化和集成学习模型的并行化。在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈。如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题。集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取该数据源所蕴含有价值规律。因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据,实现多元数据的融合、建模和挖掘,并从中寻找出有价值的数据语义,为政府的决策提供支持。然而,由于大数据的海量特性,使得集成学习模型的并行化处理技术变得日益重要。利用高性能服务器集群实现集成学习模型的并行化处理将成为集成学习未来发展趋势之一。集成学习作为一种提升学习系统泛化性能的常用技术,在诸多领域有着广阔的应用前景。在美国NETFLIX电影推荐比赛中,基于集18成学习的推荐算法获得了第一名。在多次KDD和ICDM的数据挖掘竞赛中,基于集成学习的算法都取得了最好的成绩。集成学习算法已成功应用于智能交通中的行人检测、车辆检测等,图像和视频处理中动作检测、人物追踪、物体识别等,生物信息学蛋白质磷酸化位点预测、基因组功能预测、癌症预测等,数据挖掘中的脑电数据挖掘、数据流挖掘等。例如,在生物信息学领域,Yu等人75成功地把集成学习模型应用于预测蛋白与酶绑定的磷酸化位点。在数据挖掘领域,Zhu等人76把集成学习模型与主动学习相结合,应用于数据流的模式挖掘。在多媒体领域,Xu等人77把集成学习模型用于检测交通视频中的行人。2.5主动学习机器学习主要研究计算机如何利用经验数据提高自身性能。充分和高质量的数据是有效学习的基础和关键。在传统的有监督学习中,要求用于训练学习模型的数据均是已标记的。一般认为,已标记的数据越多,标记越精准,基于这些数据训练得到的模型也越高效。大数据时代为机器学习提供了丰富的原材料,使其发挥着越来越重要的作用,成为当前最热门的研究领域之一。然而,大数据提供机遇的同时也带来了严重的挑战,其中最典型的便是数据质量低下。在许多实际任务中,我们可以轻松获取大量数据,但这些数据大部分是未标注的。比如在图像分类任务中,绝大部分用户上传照片缺乏准确的语义标签。因此如何从仅有少量标记的大数据中学习出有效模型是一个极具挑战的重要问题。一个最直接的解决方案是先人工标注好所有数据再进行模型训练。面对海量数据时这种方案将耗费大量人力物力,显然是不现实的。实际上,在某些现实任务中,即使标注少量数据也需要昂贵的代价。比如在语音识别任务中,一个熟练的语言学家对一段1分钟的语音数据进行语素级标注将耗费近7小时78。19一个更合理的方案是挑选一部分数据进行标注。实际上,不同数据样本对于学习模型的贡献度是不一样的,如果我们能够选取一部分最有价值的数据进行标注,有可能仅基于少量数据就能获得同样高效的模型。为了实现这一目标,关键在于如何选择出最有价值的数据样本并去获取它们的标记信息。主动学习就是研究这一问题的一种机器学习框架。其核心任务是制定选择样本的标准,从而选择尽可能少的样本进行标注来训练出一个好的学习模型79。目前主要有三种主动学习场景:基于数据池的主动学习、基于数据流的主动学习以及基于合成样本查询的主动学习79。下面将分别对这三种主动学习场景进行介绍。基于数据池的主动学习是最常见的一种场景,其假设所有未标记数据已经给定,形成一个数据池。主动学习算法迭代进行,每一次从未标记数据池中选择样本向专家查询标记,并将这些新标注的样本加入训练集,模型基于新的训练集进行更新,进而进入下一次迭代;基于数据流的主动学习假设样本以流的形式一个一个到达,因此在某时刻当一个样本到达的时候,算法必须决定是否查询该样本的标记。这种场景在一些实际应用中也比较常见,比如数据流源源不断产生,而又无法保存下来所有数据时,基于数据流的主动学习就更为适用;基于合成样本查询的主动学习并不是从已有样本中选择来查询标记信息,而是直接从特征空间里合成出新的样本进行查询。由于新合成的样本可能是特征空间里任意取值组合产生的,因此在某些应用问题中可能导致人类专家也无法标注这些合成样本。比如在图像分类任务中,任意像素取值合成的一幅图片可能并不能呈现出清晰的语义。主动学习的关键任务在于设计出合理的查询策略,即按照一定的准则来选择被查询的样本。目前的方法可以大致的分为三种策略:基于信息量的查询策略、基于代表性的查询策略以及综合多种准则的查询策略。20基于信息量的查询策略是最为常见的,其基本思想是选择那些能最大限度减少当前模型不确定性的样本进行查询。具体而言,信息量又可以通过模型预测的置信度80、模型错误率下降期望81、委员会投票82等
展开阅读全文