资源描述
2020年人工智能十大技术进展及 2021年十大技术趋势 BEIJING ACADEMY OF ARTIFICIAL INTELLIGENCE 目 录 序言 01 2020年人工智能十大技术进展 进展1:OpenAI发布全球规模最大的预训练语言模型GPT-3 02 进展2:DeepMind的AlphaFold2破解蛋白质结构预测难题 03 进展3:深度势能分子动力学研究获得戈登贝尔奖 04 进展4:DeepMind等用深度神经网络求解薛定谔方程促进量子化学发展 05 进展5:美国贝勒医学院通过动态颅内电刺激实现高效“视皮层打印” 06 进展6:清华大学首次提出类脑计算完备性概念及计算系统层次结构 07 进展7:北京大学首次实现基于相变存储器的神经网络高速训练系统 08 进展8:MIT仅用19个类脑神经元实现控制自动驾驶汽车 09 进展9:Google与Facebook团队分别提出全新无监督表征学习算法 10 进展10:康内尔大学提出可缓解检索排序马太效应问题的无偏公平排序模型 11 2021年人工智能十大技术趋势 趋势1:科学计算中的数据与机理融合建模 12 趋势2:深度学习理论迎来整合与突破 13 趋势3:机器学习向分布式隐私保护方向演进 14 趋势4:大规模自监督预训练方法进一步发展 15 趋势5:基于因果学习的信息检索模型与系统成为重要发展方向 16 趋势6:类脑计算系统从“专用”向“通用”逐步演进 17 趋势7:类脑计算从散点独立研究向多点迭代发展迈进 19 趋势8:神经形态硬件特性得到进一步的发掘并用于实现更为先进的智能系统 20 趋势9:人工智能从脑结构启发走向结构与功能启发并重 21 趋势10:人工智能计算中心成为智能化时代的关键基础设施 22 作者 24 序言 01 2020年人工智能十大技术进展 进展1:OpenAI发布全球规模最大的预训练语言模型GPT-3 02 进展2:DeepMind的AlphaFold2破解蛋白质结构预测难题 03 进展3:深度势能分子动力学研究获得戈登贝尔奖 04 进展4:DeepMind等用深度神经网络求解薛定谔方程促进量子化学发展 05 进展5:美国贝勒医学院通过动态颅内电刺激实现高效“视皮层打印” 06 进展6:清华大学首次提出类脑计算完备性概念及计算系统层次结构 07 进展7:北京大学首次实现基于相变存储器的神经网络高速训练系统 08 进展8:MIT仅用19个类脑神经元实现控制自动驾驶汽车 09 进展9:Google与Facebook团队分别提出全新无监督表征学习算法 10 进展10:康内尔大学提出可缓解检索排序马太效应问题的无偏公平排序模型 11 2021年人工智能十大技术趋势 趋势1:科学计算中的数据与机理融合建模 12 趋势2:深度学习理论迎来整合与突破 13 趋势3:机器学习向分布式隐私保护方向演进 14 趋势4:大规模自监督预训练方法进一步发展 15 趋势5:基于因果学习的信息检索模型与系统成为重要发展方向 16 趋势6:类脑计算系统从“专用”向“通用”逐步演进 17 趋势7:类脑计算从散点独立研究向多点迭代发展迈进 19 趋势8:神经形态硬件特性得到进一步的发掘并用于实现更为先进的智能系统 20 趋势9:人工智能从脑结构启发走向结构与功能启发并重 21 趋势10:人工智能计算中心成为智能化时代的关键基础设施 22 作者 24 -01- 序 言 跌宕起伏的 2020 年, 似乎如梦如幻。但这一转折之年, 对于 AI 领域却无比关键,先后出现了诸多颠覆性的进展。譬如 5 月份诞生 的 GPT-3, 让人们看到了通用人工智能的希望 ; 再如 11 月底 AlphaFold2 的出现,让人惊叹“它将改变一切”,人们意识到 AI 正在以及将要颠覆传统学科。 岁末年初, AI 热潮仍然汹涌, 应用前景依然广阔。在这样一个时 间节点,全体智源学者经过商讨复盘,从科学、系统、算法等层面 总结出 2020 年 AI 领域的十大进展, 并从人工智能的基础理论、 算法、 类脑计算、 算力支撑等方面进行预测, 提出 2021 年 AI 领 域十大技术趋势, 共同展望人工智能未来的发展方向。我们相信, 人工智能技术的逐渐成熟将能够更好地帮助人类应对后疫情时代的 各种不确定性,助力构建充满希望与变化的世界。 -02- 进展1:OpenAI发布全球规模最大的预训练语言模型GPT-3 2020 年 5 月, OpenAI 发布了迄今为止全球规模最大的预训练语言模型 GPT-3。GPT-3 具 有 1750 亿参数, 训练所用的数据量达到 45TB, 训练费用超过 1200 万美元。对于所有任 务,应用 GPT-3 无需进行任何梯度更新或微调,仅需要与模型文本交互为其指定任务和展示 少量演示, 即可使其完成任务。GPT-3 在许多自然语言处理数据集上均具有出色的性能, 包 括翻译、问答和文本填空任务,还包括一些需要即时推理或领域适应的任务等,已在很多实 际任务上大幅接近人类水平。 图 1 : 国际主要预训练模型参数对比 2020 年人工智能十大技术进展 -03- 进展2:DeepMind的AlphaFold2破解蛋白质结构预测难题 2020 年 11 月 30 日, Google 旗下 DeepMind 公司的 AlphaFold2 人工智能系统在第 14 届国际蛋白质结构预测竞赛(CASP)中取得桂冠, 在评估中的总体中位数得分达到了 92.4 分, 其准确性可以与使用冷冻电子显微镜(CryoEM)、 核磁共振或 X 射线晶体学等实验技 术解析的蛋白质折叠后的 3D 结构相媲美, 有史以来首次把蛋白质结构预测任务做到了基本 接近实用的水平。自然(Nature)杂志评论认为, AlphaFold2 算法解决了困扰生物界 “50 年来的大问题”。 图 2 : 蛋白质折叠 DeepMind 公司官网对 AlphaFold2 的介绍 : phafold-a-solution-to-a-50-year-old-grand-challenge-in-biology -04- 进展3:深度势能分子动力学研究获得戈登贝尔奖 2020 年 11 月 19 日, 在美国亚特兰大举行的国际超级计算大会 SC20 上, 智源学者、 北京 应用物理与计算数学研究院王涵所在的“深度势能”团队, 获得了国际高性能计算应用领域 最高奖项“戈登贝尔奖”(ACM Gorden Bell Prize)。“戈登贝尔奖”设立于1987年, 由美国计算机协会(ACM)颁发,被誉为“计算应用领域的诺贝尔奖”。 该团队研究的“分子动力学”,结合了分子建模、机器学习和高性能计算相关方法,能够将 第一性原理精度分子动力学模拟规模扩展到 1 亿原子, 同时计算效率相比此前人类最好水平 提升 1000 倍以上, 极大地提升了人类使用计算机模拟客观物理世界的能力。美国计算机协 会(ACM)评价道, 基于深度学习的分子动力学模拟通过机器学习和大规模并行的方法, 将 精确的物理建模带入了更大尺度的材料模拟中,将来有望为力学、化学、材料、生物乃至工 程领域解决实际问题(如大分子药物开发)发挥更大作用。 图 3 : 深度势能分子动力学模型 论文地址 : arxiv/abs/2005.00223 -05- 进展4:DeepMind等用深度神经网络求解薛定谔方程促进量子 化学发展 作为量子力学的基本方程之一, 薛定谔方程提出已经有 90 多年的时间, 但如何精确求解薛 定谔方程, 却一直困扰着许多科学家。 2019 年, DeepMind 开发出一种费米神经网络 (Fermionic neural networks,简称 FermiNet)来近似计算薛定谔方程,在精度和准确性 上都满足科研标准, 为深度学习在量子化学领域的发展奠定了基础, 2020 年 10 月, DeepMind 开源了 FermiNet,相关论文发表在物理学期刊 Physical Review Research 上。 另外, 2020 年 9 月, 德国柏林自由大学的几位科学家也提出了一种新的深度学习波函数拟 设方法, 它可以获得电子薛定谔方程的近乎精确解, 相关研究发表在 自然 化学 (Nature Chemistry)期刊上。 该类研究所展现的, 不仅是深度学习在解决某一特定科学问题过程中的应用, 也是深度学习 能在生物、化学、材料以及医药等各领域科研中被广泛应用的一个远大前景。 图 4 : FermiNet 体系结构示意图 论文地址 : -06- 进展 5:美国贝勒医学院通过动态颅内电刺激实现高效 “视皮层打 印” 对于全球 4000 多万盲人来说,重见光明是一个遥不可及的梦想。2020 年 5 月,美国贝勒医 学院的研究者利用动态颅内电刺激新技术, 用植入的微电极阵列构成视觉假体, 在人类初级 视皮层绘制 W、 S 和 Z 等字母的形状, 成功地让盲人“看见”了这些字母。结合马斯克创办 的脑机接口公司 Neuralink 发布的高带宽、 全植入式脑机接口系统, 下一代视觉假体有可能 精准刺激大脑初级视觉皮层的每一个神经元, 帮助盲人“看见”更复杂的信息, 实现他们看 清世界的梦想。 图 5 : 美国贝勒医学院研究示意图 论文链接 : doi/10.1016/j.cell.2020.04.033 -07- 进展6:清华大学首次提出类脑计算完备性概念及计算系统层次结构 2020 年 10 月, 智源学者, 清华大学张悠慧、 李国齐、 宋森团队首次提出“类脑计算完备 性”概念以及软硬件去耦合的类脑计算系统层次结构, 通过理论论证与原型实验证明该类系 统的硬件完备性与编译可行性, 扩展了类脑计算系统应用范围使之能支持通用计算。该研究 成果发表在 2020 年 10 月 14 日的自然(Nature)期刊。自然周刊评论认为,“完 备性新概念推动了类脑计算”, 对于类脑系统存在的软硬件紧耦合问题而言这是“一个突破 性方案”。 图 6 : 清华大学类脑计算完备性示意图 论文地址 : -08- 进展7:北京大学首次实现基于相变存储器的神经网络高速训练系统 2020 年 12 月, 智源学者、 北京大学杨玉超所在团队提出并实现了一种基于相变存储器 (PCM) 电导随机性的神经网络高速训练系统, 有效地缓解了人工神经网络训练过程中时 间、 能量开销巨大并难以在片上实现的问题。该系统在误差直接回传算法(DFA)的基础上 进行改进,利用 PCM 电导的随机性自然地产生传播误差的随机权重,有效降低了系统的硬件 开销以及训练过程中的时间、 能量消耗。该系统在大型卷积神经网络的训练过程中表现优 异, 为人工神经网络在终端平台上的应用以及片上训练的实现提供了新的方向。论文被国际 微电子领域的顶级会议 IEDM(国际电子器件会议)2020 收录。 图 7 : 北京大学神经网络高速训练系统示意图 Yingming Lu, Xi Li, Longhao Yan, Teng Zhang, Yuchao Yang*, Zhitang Song*, and Ru Huang*, Accelerated Local Training of CNNs by Optimized Direct Feedback Align- ment Based on Stochasticity of 4 Mb C-doped Ge2Sb2Te5 PCM Chip in 40 nm Node. IEDM Tech. Dig. 36.3, 2020. -09- 进展8:MIT仅用19个类脑神经元实现控制自动驾驶汽车 受秀丽隐杆线虫等小型动物脑的启发, 来自 MIT 计算机科学与人工智能实验室 (CSAIL)、 维也纳工业大学、奥地利科技学院的团队仅用 19 个类脑神经元就实现了控制自动驾驶汽车, 而常规的深度神经网络则需要数百万神经元。此外, 这一神经网络能够模仿学习, 具有扩展 到仓库的自动化机器人等应用场景的潜力。这一研究成果已发表在2020年10月13日的自 然杂志子刊自然 机器智能(Nature Machine Intelligence)上。 图 8 : MIT 类脑神经元控制汽车行驶可视化 论文地址 : -10- 进展9:Google与Facebook团队分别提出全新无监督表征学习 算法 2020 年初, Google 与 Facebook 分别提出 SimCLR 与 MoCo 两个算法, 均能够在无标注 数据上学习图像数据表征。两个算法背后的框架都是对比学习(contrastivelearning)。 对比学习的核心训练信号是图片的 “可区分性”。模型需要区分两个输入是来自于同一图片 的不同视角, 还是来自完全不同的两张图片。这个任务不需要人类标注, 因此可以使用大量 无标签数据进行训练。尽管 Google 和 Facebook 的两个工作对很多训练的细节问题进行了 不同的处理,但它们都表明,无监督学习模型可以接近甚至达到有监督模型的效果。 图 9 : SimCLR 框架示意图 论文地址 : semi.html -11- 进展 10:康内尔大学提出可缓解检索排序马太效应问题的无偏公平 排序模型 近年来, 检索的公平性和基于反事实学习的检索和推荐模型已经成为信息检索领域重要的研 究方向,相关的研究成果已经被广泛应用于点击数据纠偏、模型离线评价等,部分技术已经 落地于阿里巴巴和华为等公司的推荐及搜索产品中。 2020 年 7 月, 康奈尔大学 Thorsten Joachims 教授团队发表了公平无偏的排序学习模型 FairCo,一举夺得了国际信息检索领域顶会 SIGIR 2020 最佳论文奖。该研究分析了当前排序 模型普遍存在的位置偏差、 排序公平性以及物品曝光的马太效应问题等, 基于反事实学习技 术提出了具有公平性约束的相关度无偏估计方法, 并实现了排序性能的提升, 受到了业界的 广泛关注和好评。 图 10 : 康奈尔大学研究者在 SIGIR 2020 中做报告 论文地址 : arxiv/abs/2005.14713 -12- 趋势1:科学计算中的数据与机理融合建模 【趋势概要】机器学习与科学计算的结合, 即数据和机理的融合计算, 为科学研究提供了新 的手段和范式, 成为了前沿计算的典型代表。从机理出发的建模以基本物理规律为出发点进 行演绎,追求简洁与美的表达 ; 从数据出发的建模从数据中总结规律,追求在实践中的应用 效果。这两方面的建模方法都在科学史中发挥了重要作用。近年来, 科学计算发展的一个重 要趋势是由单纯基于机理或数据的范式向数据与机理的融合建模与计算发展。众多前沿科学 领域中的许多重要问题常常涉及多个发生在不同时空尺度上相互耦合的物理过程, 具有高度 的各向异性、奇异性、非均匀性以及不确定性等特征。人类只能知道部分原理和数据,此时 机理与数据结合的方式将成为研究这些问题的有力手段。 【趋势解读】随着大数据、人工智能、量子计算等新技术的快速发展,人类社会已经步入了 第四次工业革命时代。计算作为第四次工业革命的核心, 其前沿算法和基础理论正在发生巨 大变化, 呈现出基于数据的机器学习与基于机理的科学计算两大领域接近与融合、 算力突破 性发展由量变引发质变、计算在社会生活中无处不在引发深刻社会影响等趋势。 传统科学计算中的建模方法可分为从机理出发的建模和从数据出发的建模两类。从机理出发 的建模以基本物理规律为出发点进行演绎,追求简洁与美的表达 ; 从数据出发的建模从数据 中总结规律, 追求在实践中的应用效果。两方面建模方法都在科学史中发挥了重要作用, 前 者如相对论、 标准粒子模型等 ; 后者如开普勒定律等。随着机器学习方法和技术的飞速发 展,以 GPU 为代表的硬件技术提供算力支持,以深度学习为代表的基于数据的建模方法在计 算机视觉、 自然语言处理等领域获得了前所未有的成功。近年来, 科学计算发展的一个重要 趋势是由基于单纯机理建模或单纯数据建模, 向数据机理结合建模发展。材料科学、 计算化 学、 高能量密度物理等众多前沿科学领域中的许多重要问题, 常常涉及多个发生在不同时空 尺度上相互耦合的物理过程, 具有高度的各向异性、 奇异性、 非均匀性以及不确定性等特 征。人类只能知道部分原理和数据, 这时机理与数据结合的建模方式成为研究这些问题的有 力手段。例如,在稀疏雷达成像方面,雷达成像依赖于物理原理,而稀疏场景依赖于观测数 据, 对二者的融合是构成稀疏雷达成像的基础。数据机理混合建模的核心问题是基于机理的 模型和数据典型特征的匹配,时空尺度与粒度的匹配,以及与之相关的样本数量需求分析。 机器学习与科学计算的结合为科学研究提供了新的手段和范式。这一范式的理论基础是多尺 度建模与机器学习的有效结合。一直以来, 阻碍一些多尺度建模方法在实际应用的难题在于 精度与效率不可兼得, 即粗尺度模型快而不准, 细尺度模型准而不快。这背后的数学问题很 大程度上是粗尺度模型中高维函数的表示和优化问题。机器学习为高维函数的表示和优化提 供了真正有效的工具, 从而有望在本质上解决大量多尺度建模和可计算建模中的瓶颈问题。 最近, 鄂维南院士团队结合机器学习和原子建模, 在超级计算机上将第一性原理精度的分子 动力学模拟效率相比世界记录提升了一千亿倍。在可以预见的将来, 机器学习将在更多的科 学计算领域与传统的科学计算深度融合, 这种研究范式的变革将为科学研究和技术创新带来 深远的影响。 2021 年人工智能十大技术趋势 -13- 【趋势概要】机器学习与科学计算的结合, 即数据和机理的融合计算, 为科学研究提供了新 的手段和范式, 成为了前沿计算的典型代表。从机理出发的建模以基本物理规律为出发点进 行演绎,追求简洁与美的表达 ; 从数据出发的建模从数据中总结规律,追求在实践中的应用 效果。这两方面的建模方法都在科学史中发挥了重要作用。近年来, 科学计算发展的一个重 要趋势是由单纯基于机理或数据的范式向数据与机理的融合建模与计算发展。众多前沿科学 领域中的许多重要问题常常涉及多个发生在不同时空尺度上相互耦合的物理过程, 具有高度 的各向异性、奇异性、非均匀性以及不确定性等特征。人类只能知道部分原理和数据,此时 机理与数据结合的方式将成为研究这些问题的有力手段。 【趋势解读】随着大数据、人工智能、量子计算等新技术的快速发展,人类社会已经步入了 第四次工业革命时代。计算作为第四次工业革命的核心, 其前沿算法和基础理论正在发生巨 大变化, 呈现出基于数据的机器学习与基于机理的科学计算两大领域接近与融合、 算力突破 性发展由量变引发质变、计算在社会生活中无处不在引发深刻社会影响等趋势。 传统科学计算中的建模方法可分为从机理出发的建模和从数据出发的建模两类。从机理出发 的建模以基本物理规律为出发点进行演绎,追求简洁与美的表达 ; 从数据出发的建模从数据 中总结规律, 追求在实践中的应用效果。两方面建模方法都在科学史中发挥了重要作用, 前 者如相对论、 标准粒子模型等 ; 后者如开普勒定律等。随着机器学习方法和技术的飞速发 展,以 GPU 为代表的硬件技术提供算力支持,以深度学习为代表的基于数据的建模方法在计 算机视觉、 自然语言处理等领域获得了前所未有的成功。近年来, 科学计算发展的一个重要 趋势是由基于单纯机理建模或单纯数据建模, 向数据机理结合建模发展。材料科学、 计算化 学、 高能量密度物理等众多前沿科学领域中的许多重要问题, 常常涉及多个发生在不同时空 尺度上相互耦合的物理过程, 具有高度的各向异性、 奇异性、 非均匀性以及不确定性等特 征。人类只能知道部分原理和数据, 这时机理与数据结合的建模方式成为研究这些问题的有 力手段。例如,在稀疏雷达成像方面,雷达成像依赖于物理原理,而稀疏场景依赖于观测数 据, 对二者的融合是构成稀疏雷达成像的基础。数据机理混合建模的核心问题是基于机理的 模型和数据典型特征的匹配,时空尺度与粒度的匹配,以及与之相关的样本数量需求分析。 趋势2:深度学习理论迎来整合与突破 【趋势概要】深度学习在应用领域取得了令人瞩目的成功, 但其理论基础仍十分薄弱, 研究 者对深度学习为何表现出比传统机器学习方法更优越的性能背后存在的机理尚不清楚。深度 学习的理论分析需要从数学、统计和计算的不同角度,以及表示能力、泛化能力、算法收敛 性和稳定性等多个方面进行探索和创新。当前对深度学习理论碎片式的理解, 将进一步迎来 整合与突破, 从对浅层网络和局部性质的理解向深度网络和全局性质不断深化, 最终能够完 整解答关于深度学习能力与极限的重大理论问题。 【趋势解读】深度学习是当前人工智能领域最受关注的方法, 在各类监督和非监督学习任务 上获得了巨大成功,不仅大幅超越了传统机器学习算法,而且在某些特定的应用场景中,已 经接近甚至达到了人类的水平。然而, 研究者迄今对深度学习成功背后的根本原因仍然知之 甚少, 对其为何表现出比传统机器学习方法更优越的性能尚未建立完整的理论解释。这一重 大理论缺陷背后蕴藏着深度学习研究科学性与可重复性的危机, 制约着以深度学习为代表的 主流人工智能技术的发展。 回顾人工智能的发展历史, 统计学习理论的建立和完善不仅为支持向量机(SVM)、 核方法 (Kernel Methods)等机器学习算法奠定了理论基础,而且直接启发了一大批高效的实用算 法。与传统统计模型和机器学习算法相比, 深度神经网络具有多个显著特点, 如具有多层复 合结构、过参数化导致的不可识别性、优化问题高维非凸等。此外,深度神经网络的训练通 常采用随机梯度下降、 随机失活、 批标准化等具有隐式正则化效果的策略。这些与传统模型 机器学习与科学计算的结合为科学研究提供了新的手段和范式。这一范式的理论基础是多尺 度建模与机器学习的有效结合。一直以来, 阻碍一些多尺度建模方法在实际应用的难题在于 精度与效率不可兼得, 即粗尺度模型快而不准, 细尺度模型准而不快。这背后的数学问题很 大程度上是粗尺度模型中高维函数的表示和优化问题。机器学习为高维函数的表示和优化提 供了真正有效的工具, 从而有望在本质上解决大量多尺度建模和可计算建模中的瓶颈问题。 最近, 鄂维南院士团队结合机器学习和原子建模, 在超级计算机上将第一性原理精度的分子 动力学模拟效率相比世界记录提升了一千亿倍。在可以预见的将来, 机器学习将在更多的科 学计算领域与传统的科学计算深度融合, 这种研究范式的变革将为科学研究和技术创新带来 深远的影响。 和算法截然不同的特点, 使得对深度神经网络进行严格的理论分析异常困难, 需要从数学、 统计和计算的不同角度,以及表示能力、泛化能力、算法收敛性和稳定性等多个侧面,对现 有的统计学习理论进行再思考、整合与重构。 近几年, 深度学习理论研究的主要进展集中在浅层无穷宽网络的理论分析以及对“双下降” 现象的理论解释两方面。对于两层无穷宽网络, 可以用近似网络参数分布的平均场理论和刻 画参数演化动力学的神经正切核理论进行分析。这些理论较好地描述了浅层网络的性质, 但 对理解宽度受限的深度网络帮助不大, 无法说明深度网络相对传统核方法的优越性。另一研 究热点“双下降”现象则表明, 深度网络等过参数化模型或许并不完全遵循经典的“偏差 方差权衡”,为理解正则化在深度学习泛化理论中扮演的关键角色提供了新的视角。 展望未来, 深度学习理论能否取得根本性突破, 关键在于发现和建立联系各个理论的桥梁, 融合与发展来自基础数学、 概率统计、 数值计算等各个数学分支的理论工具。这些理论创新 将有望提升对深度学习的理解, 从浅层网络和局部性质向深度网络和全局性质不断深化和拓 展,并整合与完善统计学、机器学习和数据科学的理论框架,为下一代人工智能提供强大的 理论指引和方法学驱动。 【趋势概要】深度学习在应用领域取得了令人瞩目的成功, 但其理论基础仍十分薄弱, 研究 者对深度学习为何表现出比传统机器学习方法更优越的性能背后存在的机理尚不清楚。深度 学习的理论分析需要从数学、统计和计算的不同角度,以及表示能力、泛化能力、算法收敛 性和稳定性等多个方面进行探索和创新。当前对深度学习理论碎片式的理解, 将进一步迎来 整合与突破, 从对浅层网络和局部性质的理解向深度网络和全局性质不断深化, 最终能够完 整解答关于深度学习能力与极限的重大理论问题。 【趋势解读】深度学习是当前人工智能领域最受关注的方法, 在各类监督和非监督学习任务 上获得了巨大成功,不仅大幅超越了传统机器学习算法,而且在某些特定的应用场景中,已 经接近甚至达到了人类的水平。然而, 研究者迄今对深度学习成功背后的根本原因仍然知之 甚少, 对其为何表现出比传统机器学习方法更优越的性能尚未建立完整的理论解释。这一重 大理论缺陷背后蕴藏着深度学习研究科学性与可重复性的危机, 制约着以深度学习为代表的 主流人工智能技术的发展。 回顾人工智能的发展历史, 统计学习理论的建立和完善不仅为支持向量机(SVM)、 核方法 (Kernel Methods)等机器学习算法奠定了理论基础,而且直接启发了一大批高效的实用算 法。与传统统计模型和机器学习算法相比, 深度神经网络具有多个显著特点, 如具有多层复 合结构、过参数化导致的不可识别性、优化问题高维非凸等。此外,深度神经网络的训练通 常采用随机梯度下降、 随机失活、 批标准化等具有隐式正则化效果的策略。这些与传统模型 趋势3:机器学习向分布式隐私保护方向演进 【趋势概要】当前, 全球多个国家和地区已出台数据监管法规, 如 HIPAA(美国健康保险便 利和责任法案)、 GDPR(欧盟通用数据保护条例)等, 通过严格的法规限制多机构间隐私 数据的交互。分布式隐私保护机器学习通过加密、 分布式存储等方式保护机器学习模型训练 的输入数据,是打破数据孤岛、完成多机构联合训练建模的可行方案。 【趋势解读】 近年来 , 数据隐私保护逐渐成为各界关注的热点问题。在保护数据隐私的限制 下, 多机构联合进行机器学习模型训练需要密码学、 分布式系统以及人工智能等多学科交叉 的指导。当前热门的联邦学习能够解决一部分隐私保护的问题, 但在计算性能、 高可用性、 可编程性、 可证明安全性等领域, 目前仍然存在诸多技术及工程难题, 需要研究人员去攻 破。 分布式隐私保护机器学习系统的计算性能非常重要, 而常见系统的计算性能主要受限于(同 态) 密码学计算, 包括加密、 解密、 密文加 / 乘等。而机器学习算法的特点是在张量 -14- 和算法截然不同的特点, 使得对深度神经网络进行严格的理论分析异常困难, 需要从数学、 统计和计算的不同角度,以及表示能力、泛化能力、算法收敛性和稳定性等多个侧面,对现 有的统计学习理论进行再思考、整合与重构。 近几年, 深度学习理论研究的主要进展集中在浅层无穷宽网络的理论分析以及对“双下降” 现象的理论解释两方面。对于两层无穷宽网络, 可以用近似网络参数分布的平均场理论和刻 画参数演化动力学的神经正切核理论进行分析。这些理论较好地描述了浅层网络的性质, 但 对理解宽度受限的深度网络帮助不大, 无法说明深度网络相对传统核方法的优越性。另一研 究热点“双下降”现象则表明, 深度网络等过参数化模型或许并不完全遵循经典的“偏差 方差权衡”,为理解正则化在深度学习泛化理论中扮演的关键角色提供了新的视角。 展望未来, 深度学习理论能否取得根本性突破, 关键在于发现和建立联系各个理论的桥梁, 融合与发展来自基础数学、 概率统计、 数值计算等各个数学分支的理论工具。这些理论创新 将有望提升对深度学习的理解, 从浅层网络和局部性质向深度网络和全局性质不断深化和拓 展,并整合与完善统计学、机器学习和数据科学的理论框架,为下一代人工智能提供强大的 理论指引和方法学驱动。 【趋势概要】当前, 全球多个国家和地区已出台数据监管法规, 如 HIPAA(美国健康保险便 利和责任法案)、 GDPR(欧盟通用数据保护条例)等, 通过严格的法规限制多机构间隐私 数据的交互。分布式隐私保护机器学习通过加密、 分布式存储等方式保护机器学习模型训练 的输入数据,是打破数据孤岛、完成多机构联合训练建模的可行方案。 【趋势解读】 近年来 , 数据隐私保护逐渐成为各界关注的热点问题。在保护数据隐私的限制 下, 多机构联合进行机器学习模型训练需要密码学、 分布式系统以及人工智能等多学科交叉 的指导。当前热门的联邦学习能够解决一部分隐私保护的问题, 但在计算性能、 高可用性、 可编程性、 可证明安全性等领域, 目前仍然存在诸多技术及工程难题, 需要研究人员去攻 破。 分布式隐私保护机器学习系统的计算性能非常重要, 而常见系统的计算性能主要受限于(同 态) 密码学计算, 包括加密、 解密、 密文加 / 乘等。而机器学习算法的特点是在张量 趋势4:大规模自监督预训练方法进一步发展 【趋势概要】GPT-3 的出现激发了研究人员在视觉等更广泛的范围内, 对大规模自监督预训 练方法继续开展探索和研究,未来,基于大规模图像、语音、视频等多模态数据,以及跨语 言的自监督预训练模型将进一步发展, 研究人员也将持续探索解决当前大规模自监督预训练 模型不具有认知能力等问题的方法。 【趋势解读】 GPT-3 的发布让研究人员看到了大规模自监督预训练方法的发展潜力和可能, -15- (tensor) 上操作, 批次加密、 并行加密会带来较大的性能提升 ; 同时新硬件 (FPGA、 GPU), 新(同态)加密算法的引入,也会带来极大的性能提升。 分布式隐私保护机器学习主要面向地理分布式场景, 在公网不稳定连接环境下如何进行高可 用的机器学习模型训练, 需要算法设计和系统设计两方面努力。在算法设计中, 需要引入异 步 / 半异步更新机制 ; 在系统设计中需要探索更新备份与重发机制,保证高可用模型训练与 预测。 分布式隐私保护机器学习, 在按特征切分场景的情况下需要对机器学习算法进行较大的改 动, 需要将模型的不同模块“切分”到各参与方执行, 这为系统的可编程性带来很大挑战。 目前, 深度学习算法框架 TensorFlow 通过名为“device_placement”的编程接口, 使得 串行机器学习程序能够平滑过渡到分布式机器学习。但分布式隐私保护机器学习的编程接口 设计仍然需要探索。 可证明安全是分布式隐私保护机器学习的重中之重, 可证明安全需要考虑底层的密码学协议 (例如同态加密、秘密共享等),也需要考虑上层计算语义(例如卷积,向量求和等),需 要基于密码安全性证明框架进行自动的安全性证明。作为可证明安全的第一步, 分布式隐私 保护机器学习系统需要对外提供操作符级中间层表示 (IR), 作为自动化安全性证明的输 入,并作为流程可视化展示的重要内容。 未来机器学习能否串联更多的数据, 形成更大的产业规模, 隐私保护是关键。分布式隐私保 护机器学习, 可以在保护数据隐私的前提下挖掘数据的价值, 真正将数据的所有和使用分 离,有望诞生规模性数据交易。分布式隐私保护机器学习如果辅以数据确权、行为审计、结 算等,有望打破数据孤岛,赋能智慧城市、智能决策等场景。 未来将在视觉等更广泛的范围内引发了人们对大规模自监督预训练的探索和研究。 2020 年, 在基于图像、 语音、 视频等多模态数据, 以及跨语言的大型预训练模型研发上, 已取得一定进展。在多模态大规模预训练模型方面,OpenAI 研发 MuseNet、ImageGPT 等 模型。其中,MuseNet 采用多种乐器的音频数据,可融合多种国家、乐曲风格和乐器音色的 特征,创作音乐作品。ImageGPT 采用 GPT 系列的模型架构,在图像生成、图像修复等任务 上取得优秀表现。在跨语言模型方面, 2020 年 10 月, Facebook 和 Google 相继推出多语 言大规模预训练模型。 Facebook 发布了一个百种语言互译的模型 M2M-100, 谷歌开源了 基于 101 种语言进行训练的多语言模型 MT5。 但大规模自监督预训练方法目前仍存在一定的局限性。一是大规模自监督预训练需要大规模 算力和海量数据资源支持,相关研究只能在具备一定条件的科研机构进行 ; 二是大规模自监 督预训练还需要研究人员对相关研究领域的数据有深刻理解, 才能设计更适合相应领域的预 训练模型,如计算机视觉领域的问题、声音信号的处理等 ; 三是大规模预训练语言模型在深 层次的语言理解方面仍存在差距, 即使是 GPT-3 规模的预训练语言模型, 仍不具有人类常 识, 无法理解语言中的高级概念。例如, GPT-3 生成的语言会出现常识错误和逻辑错误 ; 另外,大规模预训练模型也存在隐私数据的提取问题。 未来, 随着预训练模型研究的不断深入, 研究人员将持续探索寻找解决目前这些问题的方 法。另外,随着算力资源的增长,预训练模型的参数规模将更加庞大,模型可能具有更强的 理解能力,完成更具有逻辑性的任务。 【趋势概要】GPT-3 的出现激发了研究人员在视觉等更广泛的范围内, 对大规模自监督预训 练方法继续开展探索和研究,未来,基于大规模图像、语音、视频等多模态数据,以及跨语 言的自监督预训练模型将进一步发展, 研究人员也将持续探索解决当前大规模自监督预训练 模型不具有认知能力等问题的方法。 【趋势解读】 GPT-3 的发布让研究人员看到了大规模自监督预训练方法的发展潜力和可能, 趋势5:基于因果学习的信息检索模型与系统成为重要发展方向 【趋势概要】人工智能算法是推荐系统、 搜索引擎等智能信息检索系统的核心技术, 深刻地 影响着亿万互联网产品用户的工作和生活。当前基于人工智能算法的信息检索模型大多关注 给定数据中变量间相关性的建立, 而相关性与更为本源的因果关系并不等价, 导致当前信息 检索的结果存在较为严重的偏差, 对抗攻击的能力不佳, 且模型往往缺乏可解释性。为了实 现真正智能化的信息检索系统, 基于因果学习的检索模型是必然要迈过的一道坎。因果学习 能够识别信息检索中变量间的因果关系, 厘清事物发展变化的前因后果, 全面认识用户需求 和检索方法的本质,修正检索模型中的偏差,提升检索系统的可解释性、可操作性和可溯源 性。 -16- 未来将在视觉等更广泛的范围内引发了人们对大规模自监督预训练的探索和研究。 2020 年, 在基于图像、 语音、 视频等多模态数据, 以及跨语言的大型预训练模型研发上, 已取得一定进展。在多模态大规模预训练模型方面,OpenAI 研发 MuseNet、ImageGPT 等 模型。其中,MuseNet 采用多种乐器的音频数据,可融合多种国家、乐曲风格和乐器音色的 特征,创作音乐作品。ImageGPT 采用 GPT 系列的模型架构,在图像生成、图像修复等任务 上取得优秀表现。在跨语言模型方面, 2020 年 10 月, Facebook 和 Google 相继推出多语 言大规模预训练模型。 Facebook 发布了一个百种语言互译的模型 M2M-100, 谷歌开源了 基于 101 种语言进行训练的多语言模型 MT5。 但大规模自监督预训练方法目前仍存在一定的局限性。一是大规模自监督预训练需要大规模 算力和海量数据资源支持,相关研究只能在具备一定条件的科研机构进行 ; 二是大规模自监 督预训练还需要研究人员对相关研究领域的数据有深刻理解, 才能设计更适合相应领域的预 训练模型,如计算机视觉领域的问题、声音信号的处理等 ; 三是大规模预训练语言模型在深 层次的语言理解方面仍存在差距, 即使是 GPT-3 规模的预训练语言模型, 仍不具有人类常 识, 无法理解语言中的高级概念。例如, GPT-3 生成的语言会出现常识错误和逻辑错误 ; 另外,大规模预训练模型也存在隐私数据的提取问题。 未来, 随着预训练模型研究的不断深入, 研究人员将持续探索寻找解决目前这些问题的方 法。另外,随着算力资源的增长,预训练模型
展开阅读全文