资源描述
激活AI 创新之源 人工智能开源开放发展 报告 Open Source AI Landscape Report 指导单位:上海市经济和信息化委员会研究单位:上海交通大学、机器之心2020 年 7 月报告编写说明: 本报告中实证和案例数据来源于上海交通大学人工智能研究院、 机器之心的 专业调研以及中国人工智能开源软件发展联盟等平台和研究机构的相关报告、 统 计和预测。 本报告的编制,是在对国际、国内人工智能开源开放发展深入、广泛调研基 础上,结合权威部门和机构的相关资料和数据,通过梳理人工智能开源开放发展 现状,对开源开放的内容范畴进行细致梳理和汇总,并提出了开源开放生态的发 展特点和建设建议。本报告由编写团队共同完成,编写团队在研究范围上未能做 到无一遗漏,加之水平所限,报告一定存在不足之处。欢迎社会各界专家学者提 出建议,我们将积极听取各方专家的意见,继续改进完善。 编写组组长: 金耀辉、张晨琛 编写组成员: 汪洋、周芳、张悠曙、何依霖、胡龙正、张赵宇、李亚洲、路雪、陆少游 目录 一、人工智能开源开放及其意义. 1 (一)开源开放有利于降低 AI的使用门槛,加速新技术的推广及创新. 2 (二)开源开放有利于降低研发成本和应用效率,加速 AI 技术的成熟. 2 (三)开源开放有利于优化技术发展路线,促进形成良好生态. 3 (四)开源开放助力 AI核心技术共享,打破技术垄断. 4 (五)开源开放实现 AI人才、应用、创业、基金等创新要素集聚. 5 二、AI 开源开放体系的典型发展模式 . 6 (一)开源开放体系推动 AI发展的经典案例. 6 (二)开源开放体系推动 AI发展的常见形式. 11 三、国内外主要 AI开源开放平台及项目. 17 (一)AI开源开放标准 . 18 (二)AI开源工具体系 . 20 (三)AI资源共享平台 . 22 (四)AI开放生态平台 . 24 四、上海 AI开源开放建设的背景及建议. 25 (一)中国 AI开源开放的发展背景. 25 (二)对上海 AI开源开放的建议. 28 参考资料. 30 附录一:中外典型的 AI开源开放平台详细介绍. 33 (一)中外典型的 AI开源开放标准详细介绍. 33 (二)中外典型的 AI开源工具体系详细介绍. 36 (三)中外典型的 AI资源共享平台详细介绍. 46 (四)中外典型的 AI生态运营平台详细介绍. 49 附录二:全球主要开源开放生态平台项目列表. 57 (一) AI开源开放标准 . 57 (二) AI开源工具体系 . 58 (三) AI资源共享平台 . 61 (四) AI开放生态运营平台 . 62 前 言 人工智能(Artificial Intelligence)从1956年达特茅斯会议诞生以 来,理论和技术日益成熟,应用领域不断扩大,目前已成为新一轮科技革命和 产业变革的重要驱动力量,将对未来人类社会生活带来深刻改变。作为以软件 算法为基础的新一代变革技术和产业,人工智能与开源开放天生具有紧密联 系,近年来人工智能的技术演进和产业落地,离不开行业开源开放生态的蓬勃 发展。人工智能开源开放是驱动人工智能技术创新和发展的重要支撑力量,是 实现技术积累和快速迭代的重要创新模式,更能为全球不同行业和产业的智能 化提供重要的契机。 人工智能的开源开放发展受到国家和地方政府的高度关注。我国提出人工 智能发展战略之后,政府文件多次提到推动人工智能开源开放发展,人工智能 开源开放生态及平台建设备受关注。中国国务院在 2017年发布的新一代人工 智能发展规划中点明,下一代人工智能发展包含“科技引领、系统布局、市 场主导、开源开放”四项基本原则。上海将人工智能作为重点发展的三大产业 之一,聚焦创新策源、应用示范、制度供给和人才集聚,加快建设人工智能发 展的“上海高地”。上海市在 2019 年发布的关于建设人工智能上海高地构 建一流创新生态的行动方案(2019-2021 年)中提出要打造开放前沿共性的 创新平台,“联动国际资源,打造开源开放社区平台”是其中一项重要任务。 开源开放是上海人工智能发展生态中最为核心和具有活力的创新要素。在此新 形势下,上海交通大学与机器之心联合编写了激活AI创新之源 上海人工 智能开源开放发展报告。 开源开放蕴含着一定自组织属性,有其自身的发展规律和特点。在政策鼓 励的大背景下,需要进一步探索明确发展路径,发挥行业内各个主体的积极 性,共同打造多元参与的开源开放生态。为此,需要对AI开源开放的演进历 程、现有情况、发展规律和趋势有整体把握。 本报告首先阐述了人工智能开源开放的背景及意义。报告编写组通过文献 调研分析,探讨了人工智能开源开放体系发展模式。其中,包含了推动人工智 能发展的经典开源开放案例和常见形式。编写组将其进行归类划分,包含开源 开放标准、开源工具体系、资源共享平台和生态运营平台。通过展现经典案例 特别是最新成果(截至2020年 5月),反映 AI开源开放的最新趋势,进一步 阐明开源开放对 AI发展的重要作用和意义,为包括政府部门在内的行业各方推 动AI开源开放提供参考借鉴。最后,编写组总结目前国内开源开放的现状,并 根据上海的自身特点和建设人工智能开源开放的优势和不足,提出了参考性建 议。 1 一、人工智能开源开放及其意义 2016 年AlphaGo作为人工智能再次爆发的标志横空出世, 击败世界冠军李世石。 同 年, AlphaGo 代码就在 GitHub 上开源, 每个对这一新生事物好奇的开发者都可以自行下 载,搭建自己的超级围棋巨人。同时,开源社区已在人工智能各类细分技术领域出现, 如计算机视觉开源社区 OpenCV、 自然语言处理开源社区 OpenNLP、 机器人操作系统ROS 开源社区等等。这些开源事件和项目的出现表明,开源软件与人工智能的深度融合,是 全球人工智能产业呈现加速发展态势的重要驱动要素。 开源,又称为开放源码,其精神(文化)关键在于使用者可以自由使用、复制、散 布、研究和改进软件。2012 年 Mike Gancarz 出版了被开源软件开发者视为圣经的 Linux/Unix 设计思想,对开源技术和文化做出重要诠释。Linux/类 Unix 为代表的 开源操作系统是开源文化最重要的符号。 软件开源的历史可追溯到 20 世纪 60 年代,至今已有半个世纪的发展。纵观开源文 化的重大事件,从 1969 年 Unix 诞生以及类 Unix(BSD)发展到 1983 年 GNU 项目的发 起,标志着自由软件运动的开始,到 1985 年 Stallman 自由软件基金会的创立,再到 Android 开源移动操作系统击败 Nokia 巨头,OpenStack 开源云平合的典型架构,1991 年Linux诞生,越来越多的开源事件表明,开源可推动研发速度加快、节约成本、效益 最大化,是推动技术创新和产业发展的有效路径。最重要的例证,就是大名鼎鼎的 Android操作系统源自开源操作系统 Linux。由 Linux 或类 Unix 衍生的操作系统已经覆 盖了除Windows操作系统以外各种设备, 在企业级商用设备和移动设备上更是独占鳌头。 软件技术发展遵循一定的群体结构和运行机制。 其用户自愿贡献体现个体智能的可 衡量产出物,并通过群智协同汇聚融合成群体智慧涌现的高质量知识成果或产品,形成 了一大批以开源软件社区、大众生产、问答网站、众包等为代表的在线开放协作项目。 这些项目及其展现的群智协同模式,正以前所未有的深度和广度改变着人们获取知识、 协作生产、解决难题、共享产出等的过程和方式 1 。 作为人类社会的重要知识库,维基百科(Wikipedia)是最大的在线百科全书,其特 点是用户既是使用者,又是贡献者,其词条可自由定义、自由编辑。它是全球网络上最 大且最受大众欢迎的参考工具书,名列全球十大最受欢迎的网站。百度百科在 2019 年 将其收录的词条数正式提升到 1640 万条,成为满足网民“定义类知识需求”的权威服 务。这两者相较于传统的词典,如牛津词典、汉语词典,具有容量大、新词全、更新快 等优势。这都得益于对传统集中处理思维和原有百科全书体系的开放,它不仅是技术创 新,也为新技术找到了重要应用,这也是创新的终极目标。 如果说“开源”是软件技术实现层面的共享形式,那么作为科技发展的动力源泉, “开放”意味着从数据到应用的多层次创新。它打造多方资源汇聚融合的技术创新生态 圈,促进技术持续健康发展。当前,随着世界范围内网络通信技术的快速发展,大规模 线上协同逐步常态化,特别是今年以来全球新冠疫情的爆发,加快了线上办公、在线教 育、群智协同等新模式普及的步伐。可以预见,信息化、智能化的不断延伸,将使未来 社会进入更加开放创新的发展模式。 对于人工智能科技和产业发展而言,开源开放有以下重要意义:1 在线开放协作项目中用户群智协同行为的分析与理解 , 第 期 2 (一)开源开放有利于降低 AI的使用门槛,加速新技术的推广及创新 通过开源开放,可以大幅减少重复性工作,提高研发效益,节约研发资源和时间成 本。近几年来,AI 技术领域迅猛发展,AI 相关科技创业公司如雨后春笋般涌现,在这 些AI 创业公司的背后,开源开放的 AI 编程框架、工具、平台等功不可没。这点从始终 占据AI开发框架榜首的TensorFlow 上可见一斑。 2015 年 11 月,Google 内部已经使用了近 5 年的机器学习系统 DistBelief 被简化 和重构(参与人员包括 Geoffrey Hinton 和 Jeff Dean等人工智能专家),形成了一个 更为快速、健壮的应用级别代码库并开源,名为 TensorFlow。该系统能够使用“大规模 机器集群在深度网络中分发训练和推理”,其不仅驱动了 Google 内部诸多产品包括搜 索、相册、地图、翻译、YouTube等,更为广大人工智能从业者和研究人员提供了一个 快速而强大的开发框架和工作流, 不仅可以用于学术研究, 还适用于工业界的产品开发。 根据面向开源软件托管平台GitHub 2019年末最新的统计数据, TensorFlow以9.9k 的贡献者数量排在开源项目第五位,仍然是人工智能框架领域的龙头老大,有超过 46k 个项目依赖于 TensorFlow 而建立。许多企业在构建自己的人工智能解决方案时,都会 大量用到TensorFlow、PyTorch 等开源框架、算法、工具包、乃至数据集。在开源开放 的推动下,AI 技术落地、应用、推广的门槛被降低,各行各业都可以借助开源 AI 技术 的力量优化行业内的各种解决方案,而无需担心在这些陌生、前景不明的 AI 技术上投 入过高开发成本。 (二)开源开放有利于降低研发成本和应用效率,加速 AI技术的成熟 专业的 AI 研究机构和企业会开源开放如深度学习框架、算法、数据等要素,持续 加大资金和人力投入, 加快人工智能技术的成熟应用。 图像分类领域的ImageNet(ILSVRC) 和推荐系统领域的 Netflix Prize挑战赛都是印证此价值的优秀案例。 ImageNet 是计算机视觉(CV)领域的一个大型数据库项目,是斯坦福大学的李飞飞 教授受普林斯顿大学 Christiane Fellbaum 教授的 WordNet 项目启发于2006 年开始研 究创建的。截至2018年,该数据库对超过 1400万张图像进行了手动注释,标注出图片 中的对象类别(涉及超过2万多典型类别),并在其中超过100 万张图像里标出了物体 的边框,可用于物体识别和图像分类等多种计算机视觉任务。 在大多数 AI 研究还在专注于模型和算法本身的时候,李飞飞希望通过改进和扩展 可用于训练AI 算法的数据来推动计算机视觉相关技术的发展。 该数据项目于 2009 年的 CVPR学术会议上以 Poster 形式首次公开亮相,并于次年(2010)开始,举行了基于该 数据集的大规模视觉识别挑战赛,ImageNet Large Scale Visual Recognition Challenge (ILSVRC)。此后数年,ImageNet 一直作为 CV 领域算法和模型Benchmark 的 标杆之一,引得研究者竞相参与。到 2017 年,当年的 38 个参赛团队中有 29 个均达到 了低于 5%的错误率水平,ImageNet 挑战赛也自此走到了最后一届,开始转由知名数据 竞赛平台Kaggle运营 2 。 2 3 除了促进各领域算法的发展以及 GPU 算力的广泛运用,许多大型 AI 公司或机构也 相继推出不同领域的开放数据集。 2010年以来, 谷歌、 微软和加拿大高级研究所 (CIFAR) 相继推出了自己的高质量数据集。 谷歌、 Facebook和亚马逊等互联网企业也相继基于数 以百万计的图像、声音片段和文本创造自己的内部数据集,在不同平台上分享。越来越 多的科研机构和企业开始构建并开源自己的数据集, 以吸引更多的研究者和更先进的算 法,加速推进领域内 AI技术的发展。 与ImageNet 类似的是推荐系统领域的 Netflix挑战赛, 自2006 年该挑战赛公布以 来,不仅将经典的 SVD,RBM 等算法推向市场,还促进了融合多种机器学习算法的集成 学习(Ensemble Learning)算法的发展。与此同时,工业界在认识到推荐系统巨大价值 的同时,也有了研发上的依据和基础,推荐系统自此开始逐渐在包括视频、音频、新闻 等各个不同领域扩散流行。 可见,开源开放的数据与算法共享大大促进了学术交流、算法改进与工业落地,加 速了AI技术的成熟与发展。 (三)开源开放有利于优化技术发展路线,促进形成良好生态 开源开放允许更多 AI 技术使用者参与到技术发展的评估及决策中,优化技术发展 路线。当前很多科技企业和研究平台聚集在一起,通过建立联盟关系,解决单一企业人 工智能技术创新能力不足和产品生态构建困难等问题 3 , 实现技术创新最佳实践。 该价值 的最佳体现当属“Open Access”开放获取运动。 Open Access 是指免费开放经过同行评审的学术研究成果的在线访问, 兴起于 1990 年代的学术出版界,初衷是解决当时的“学术期刊出版危机”, 促进学术交流,其主 要有两种出版形式: (1) “绿色”OA:通过将他们的期刊文章自存档(self-archiving)存入开放信息 库, 也即作者在任何期刊发表之后, 在他们的机构知识库、 中央知识库 (如arXiv, PubMed) 或其他开放获取网站中自存档该文章的一个允许“免费”公开使用的版本 (2) “金色”OA:通过开放获取期刊(Open access journal)上发表,即作者直 接在开放获取期刊上发表,这些期刊会直接对他们所有的文章提供开放获取,通常会在 出版社的网站上。 始于 1991年的论文预印本库 arXiv 是典型的“绿色”OA 出版渠道, 也是推动 Open Access运动的因素之一, 更成为现今人工智能领域论文最常见的获取渠道。 很多人工智 能领域的学者都习惯先将其论文上传至 arXiv,再提交至专业的学术期刊或会议,而这 样的行为模式和趋势对传统学术期刊的经营模式造成了不小冲击。 尽管 arXiv 并不包含 同行评议,想要提交论文的科研人员还是需要将论文按照一定的排版格式整理后,按学 科类别上传至相应的 arXiv 数据库中并经过审核确定其是否是学科领域的主题并且具 有学术价值。作为一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预3 4 印本的网站,截止 2020年 1月,arXiv已收录超过 1,640,000 篇预印本文献。其活跃度 已经让如今大多数研究人员尤其是人工智能领域从业者将其作为主要的论文更新信息 源之一。 有别于传统的科学、物理、生物学等领域,在人工智能领域,Open Access已经成 为一种常态。与arXiv 类似的,自然语言处理及计算机视觉两大人工智能主要技术领域 最权威的顶会组织 ACL、EMNLP、CoNLL、CVPR/ICCV 也都一直会将其相关会议和所属期 刊上发表的论文上传至各自的文献仓库 ACL Anthology 和 CVF(The Computer Vision Foundation)Open Access。一个不可忽视的原因在于,在人工智能近年来飞速发展的 形势下,开放获取有利于不断更新的知识迅速的被传递给需要的人员,无论是学术研究 者还是产业应用者,都可以相对快速地做出反应,避免重复造轮子,同时还可以及时给 出有用的建议乃至贡献。这也是开源软件经常更新的原因之一。另一方面,开放获取给 了被拒论文一个证明自己的机会。一个开源开放氛围浓厚的社区,论文作者们不用苦苦 等待下次发表的机会,而可将论文发布至arXiv或Open Review 一类的网站接受大众的 审视,特别符合快速发展的 AI领域特点。 (四)开源开放助力 AI 核心技术共享,打破技术垄断 在 AI 基础研究和关键共性技术的突破上,开源开放有助于实现全球水平同步,避 免出现一家独大的垄断局面。在开源历史上,Linux 和Windows 的操作系统之争最具有 代表性。 Linux,作为一款诞生之日起就与微软 windows 互有竞争的开源类 Unix 操作系统, 其内核由Linus Torvalds 于1991年开源,其中包含了很多早期开源项目GNU 操作下诞 生的基础工具(如 awk,sed 等),最初是作为支持英特尔 x86 架构的个人电脑的自由操 作系统。 与之相对立, 微软旗下的Windows 因为闭源收费的缘故, 经常贬低和斥责 Linux 的开源行为, 其在 2001年还曾公开声称“Linux是一种癌症, 它在知识产权意义上将其 自身与所接触的一切联系在一起”(意指开源的 Linux 是知识产权的破坏者)。 早期的开源社区不发达,开源主要出于个人兴趣和一时的热情,因而开源软件常有 使用门槛高却容易烂尾的情况。而随着开源社区的不断发展,早年的开源码发展实验室 (OSDL)与自由标准组织(FSG)于 2007 年合并,形成了现在的 Linux 基金会,赞助 Linux的维护工作,并领导 Linux和包括思科,惠普,IBM,英特尔,微软等众多知名科 技公司以及全世界诸多开发商的开源合作。 2007 年,微软时任 CEO鲍尔默称,Azure 上有超过 40%的虚拟机运行的是Linux 系 统。不久之后伴随着 GitHub 的成立,微软对开源开放文化的态度也在逐年转变:2009 年,微软向 Linux 贡献 2 万行设备驱动代码;2011 年,微软一度跻身 Linux 3.0 五大 公司贡献者之一;2014 年,重塑微软的CEO 纳德拉喊出著名的微软爱 Linux;2016 年,微软推出了兼容 Linux 的 SQL服务器数据库软件;2017年,微软成为 GitHub上贡 献代码最多的公司,蝉联至今。2018 年6 月,微软斥资 75 亿美元收购 GitHub,轰动全 球。 微软对开源态度的转变侧面体现了开源开放对技术发展民主化的推动不可阻挡, 如 今Linux内核已经成为服务器上最流行的标配, 且被移植到各种各样的计算机硬件平台5 包括移动终端(手机、平板电脑)、路由器、电视、游戏机、智能物联网设备、汽车、 乃至超级计算机等, 其市场占有率已远远超过其他任何闭源操作系统。 得益于开源开放, Linux不仅自身技术和生态发展欣欣向荣,人们使用该技术的门槛也在不断下降,同时 还不用付出商业软件对等的巨额许可证费用,避免了技术垄断。 2018 年,Linux 基金会发起了一个新的开源基金会项目 - 深度学习基金会(LF Deep Learning Foundation),旨在进一步推动人工智能和机器学习的发展。人工智能 开源平台框架“Acumos AI”是其第一个宣布孵化的项目,诸多世界知名企业如 AT&T, Amdocs,诺基亚、以及中国的百度、华为、腾讯等公司都第一时间加入,成为基金会的 创始成员,共同参与打造中立开源社区,改善目前广泛存在的专利许可费高昂、专业人 才有限等问题。 (五)开源开放实现AI人才、应用、创业、基金等创新要素集聚 开源开放对创新要素的集聚,首先体现在顶尖AI人才上。开源社区吸引全球数百 万AI研究人员和工程技术人员参与,对于构建国际化人工智能人才库和培养AI研发人 才大有裨益。开放创新能够为世界各地的高水平的AI专家学者搭建交流合作的平台。 截至2019年底,GitHub上有超过4000万开发人员,其中包括2019年的1000万新用 户。在全球范围内活跃的近2万个学校、超过76万名学生在GitHub上学习。近70的全 球财富 50 强公司为开源做出了贡献 4 。 其次,开源开放能帮助各行业打开拥抱新一代AI技术的大门,培育完整创新策源 能力。通过开源开放对人工智能赋能,维护开源开放氛围能为初创企业提供追赶全球 先进技术提供人才和动力。AI初创企业大多都有使用开源开放的需求,并愿意把项目 放到开源平台进行更新迭代。这也使得以众创空间、孵化器为代表的创新创业的生态 环境能够迅速建立。 再次,各大科技巨头也看到了开源开放的重要价值,全球财富50强中有35家公司 为开源做出了贡献,其中29家正在GitHub Enterprise上构建其业务背后的软件,苹 果、亚马逊、谷歌等许多大型科技公司都是 GitHub 的客户。微软公司也于2018年宣 布收购GitHub,并于2019年进入中国市场。华为也宣布将与政府以及其他国内科技巨 头联手,建立基金会来刺激国内开源软件的开发。 可见,开源开放会对AI创新要素产生越来越大的聚集作用。 4octoverse.github 6 二、AI开源开放体系的典型发展模式 开源开放对人工智能技术发展的推动体现为多种形式,包括:对AI技术研发标准 的制定、对降低AI技术发展成本或使用门槛的工具的开发、AI技术所需资源平台的搭 建、对AI开源开放生态的运营和维护等。 在介绍这些发展模式之前,为了让读者对AI开源开放有直观地认知,本报告先介 绍其中的经典案例。这些案例在其自身的发展过程中,展示了这种发展模式的优越 性。 图 1. 人工智能开源开放体系全景图(仅选取部分典型示例,完整版参照附录表 格) (一)开源开放体系推动 AI 发展的经典案例 本章我们选取“机器学习/深度学习”、 “计算机视觉”、 “自然语言处理”以及“联 邦学习”四个技术领域,具体分析开源开放体系对各自 AI 技术发展的推动作用。 1)机器学习和深度学习 7 图 2. 机器学习开源开放体系全景图 深度学习Deep Learning (DL) 一词最初在 1986 被引入机器学习Machine Learning (ML)领域,后在 2000 年被用于人工神经网络Artificial Neural Network(ANN)。 2000年代,深度学习两大神经网络架构卷积神经网络 Convolutional Neural Network (CNN)和递归神经网络Recursive Neural Network (RNN)相继诞生。而随着 2012年 ImageNet 图像识别竞赛第一名的诞生,一直阻碍深度学习发展的瓶颈问题开始得到解 决:大型开放数据集可以为深度学习提供源源不断的丰富养料,而 GPU驱动的并行计算 则大大加快了人工神经网络的训练速度。 从计算机视觉到自然语言处理再到自动驾驶等 诸多相关领域的大型数据集逐渐成为领域内的评估标准(benchmark),使得深度学习 研究不再各自为政,而是有着几乎统一的标准,因此更加可衡量和评估。 与此同时,Kaggle 数据共享平台、arXiv 论文共享平台以及 GitHub 代码共享平台 逐渐形成了一条天然的研究链: 从业者和研究人员可从 arXiv 学习了解最新的深度学习 模型, 在Kaggle上找到可以一试身手的数据集, 然后将自己的实践代码发布至GitHub, 邀请同业协作完善。 有了统一权威的评估标准和方便好用的资源共享平台后, 简化深度学习模型的开发 过程成为加速AI技术发展的瓶颈之一。 发源于高校的老牌深度学习框架Theano 主要针 对算法研究而开发,并未过多考虑工业生产的适配和效率问题。而 2015 年底开源的深 度学习开发框架 TensorFlow 一经面世便广受赞誉,不仅蹿升至 GitHub 贡献者排行榜 top 5,而且迅速在工业界流行起来,其相关产业与开源社区也迅速发展起来。此后, 各大公司纷纷效仿,开始研发自己的深度学习框架,如 Amazon 主推的 MXNet、微软开源 的CNTK(Cognitive Toolkit)、UC Berkeley 开发的 Caffe等,其中尤以 Facebook基 于 Torch 编写的 PyTorch 发展最为迅猛,大有赶超前辈 TensorFlow 之势。中国百度自 主研发的飞桨(PaddlePaddle)也稳步发展,以更贴近中国国情的优势在产业化需求中 为自己谋得一席之地。得益于模型交换标准 ONNX 格式的诞生,即便是使用不同开发框 架的模型也可以借助中间表达层 ONNX 互相交换学习,避免了大公司和研究者重复造轮 子。 伴随着深度学习的蓬勃发展,各类 AI 相关的开源工具如雨后春笋般涌现,然而数 量增多之后质量便不可避免地参差不齐,诸多老牌开源基金会组织发现了这一痛点,并 从中看到了机会。 Apache Software Foundation (ASF) 开始发力深度学习项目, 从 Mahout 到 SystemML 再到去年刚刚升级为顶级项目的 SINGA,期间更是接下了主流深度学习框 架之一的 MXNet。而另一个广为开源社区所熟知的 Linux 基金会,则是于 2018 年发起 了一个全新的开源基金会项目 深度学习基金会 (LF Deep Learning Foundation),8 旨在进一步推动人工智能和机器学习的发展(该基金会已于 2019 年更名升级为 LF AI Foundation)。诸多知名企业均在第一时间成为这两大基金会的会员,共同打造深度学 习开源软件,推动该领域的不断发展。 2)计算机视觉 图 3. 计算机视觉开源开放体系全景图 计算机视觉 Computer Vision(CV)的概念最早可追溯至 1960 年代,而从计算机视 觉概念的提出到 1990 年代,由于缺少实际数据的支撑,相关的学术研究大多基于几何 学和三维重建。直到进入 20 世纪互联网时代,伴随着计算机性能的提升和电子照片的 普及,基于学习的计算机视觉开始得到发展(最早的 CNN 基础模型之一 LeNet 于 1998 年正式发表)。在 2006年至 2012年间,Everingham 等人搭建了一个大型图片数据库供 机器识别和训练使用,该数据库包含了 20 种类别的图片,每种类别的图片数量在一千 至一万张不等,这就是ImageNet的前身 PASCAL Visual Object Challenge。虽然 限于该数据库的数量与当时的计算机算力, 机器学习算法在计算机视觉任务方面仍未受 到重视,但其潜力却开始被看见,并吸引了越来越多的研究者投身其中。而后李飞飞团 队出于“让机器学会识别世界上所有图像和物体”的想法, 开始构建后来包含超过1500 万张标注图像的开源数据集 ImageNet,并组织了相应的挑战赛 Large Scale Visual Recognition Challenge (LSVRC)。2012年,首届挑战赛冠军 AlexNet 便是凭借基于深 度学习的算法将图像识别错误率从此前的业界最佳 (SOTA) 25% 左右一举降低至 15% 左 右。 随着相关论文的开放,业界不仅看到了开放数据集对模型的滋养作用,同时也发现 了 GPU 在模型训练效率上的优势。2014 年的 VGGNet 和 GoogLeNet、2015 年的 ResNet、 2019 年的 EfficientNet 等无一不诞生于 ImageNet 挑战赛之上,它们不断刷新着各类 CV 任务的 SOTA 记录,对后来不同 CV 模型的开发产生了深远影响,成为计算机视觉技 术领域发展的中坚力量。这一开源开放事件不仅推动基于学习的算法在 CV 领域迅速占 据主导地位,还进而带动了深度学习在其他领域中的应用。 无论是大型数据集 benchmark ImageNet,还是后来成为 CV领域中坚力量的各种算 法模型,它们大多发布于当年的顶尖计算机视觉会议 CVPR 或 ICCV/ECCV 上,而计算机 视觉基金会(The Computer Vision Foundation, CVF)是其背后的主要赞助商。研究 者和从业人员之所以能第一时间看到 CV 领域的各类优秀算法模型论文,便是由于该基9 金会将其旗下所有顶尖学术会议每年正式接受发表的论文和 workshop 论文发布至 CVF Open Access开放获取平台,供所有人免费阅读。得益于此,CVPR 也在近几年连续多年 跻身Google Scholar CS大类会议排名前10 的位置(目前排名第二),会议 h5指数高 达240(AI 领域近几年热度颇高的NeurIPS 的 h5 指数仅有169)。 如果说大型 Benchmark 数据集竞赛平台 ImageNet 为 CV 的发展提供了土壤和养料, 那么英特尔 2000 年初发布并开源的计算机视觉库 OpenCV 就是推动 CV 领域发展的阳光 和催化剂。类似于 TensorFlow 之于深度学习,OpenCV 对于计算机视觉的从业人员来说 基本是一个绕不开的开发工具,是计算机视觉入门的必备技能之一。开源开放的环境使 得 OpenCV 不仅得以紧跟潮流,提供多种计算机视觉任务、算法以及硬件的支持,还能 够兼容Python、 Ruby、 MATLAB 等多种语言接口, 提供详尽的免费学习资源和问答社区。 3)自然语言处理 图 4. 自然语言处理开源开放体系全景图 自然语言处理 Natural Language Processing(NLP)是人工智能的一个非常重要的 分支,时常被称作“计算语言学”(Computational Linguistics),其核心目标是将 人类的语言(即自然语言)转换成计算机可以执行的命令。 人的语言是非常庞大而繁杂的, 很多时候并不能通过规则的定义和知识的堆砌来抽 象出规律。以机器翻译为例,从用机器来做翻译的想法被提出开始(Warren Weaver, 1949),相关研究和实践在很长的一段时间里均围绕源语言和目标语言的语言学信息而 开展,基于词典和语法生成翻译结果,这被称作基于规则的机器翻译(RBMT)。从方法 上可以看出,基于规则的机器翻译非常依赖词典和语法规则,开源词典的导入和语法规 则的共享使得其在一段时间内取得了一定成效, 然而这两项数据的获取在达到一定的阈 值之后,很难继续以固定成本持续获得更大程度的提升。 随着统计学的发展, 基于对双语文本语料的分析生成翻译结果的统计机器翻译 (SMT) 开始逐渐成为主流。该方法严重依赖多语种语料库,且更局限于特定领域。该领域最知 名的机器翻译数据竞赛平台 World Machine Translation(WMT)便在此时应运而生。 2006 年至今,该比赛已成功举办过 14 届。每次竞赛 workshop 均依托于当年的自然语 言处理顶会(NAACL、ACL和 EMNLP),提供不同语言对不同领域的机器翻译任务数据以 及评测标准,吸引了来自世界各地的研究队伍参与、学习和讨论,并由此诞生出诸多不 同的统计机器翻译模型, 更推动了知名开源统计机器翻译工具Moses的诞生, 后来Moses 逐渐成为统计机器翻译时代的标配。依托于优良的开源开放生态 (WMT) 与工具 (Moses),统计机器翻译发展良好。然而,受限于基于统计的方法,加之构建模型的平行10 语料有限,SMT通常对于新出现的概念和文字组合缺乏预测能力,因此对于领域外甚至 语料外的翻译任务几乎不可用。与此同时,SMT本身产出的翻译文字不可避免地带有明 显的机器痕迹,与人类翻译的自然流畅度相比始终存在较大差距,其翻译结果几乎全都 需要人工校对和润色加工,真实可用性大打折扣。 在Neural Language Model 提出(Youshua Bengio, 2003)约 10 年后,端到端编 码器-解码器架构的机器翻译模型开始出现,随着 Sutskever et al.和 Cho et al 开 发出序列到序列(seq2seq)方法,神经机器翻译(Neural Machine Translation, NMT) 开始进入大众视野。自此,机器翻译正式走上了快车道。得益于开源开放的论文共享平 台arXiv和一年一度的数据集竞赛平台与基准 WMT,研究者可以快速交流学习模型设计 想法并测试效果。与 SMT相比,NMT可以联合训练多个特征,而且不需要先验知识,这 赋予它 zero-shot 翻译的能力。除了更高的 BLEU 值和更好的句子结构之外,NMT 还有 助于减少SMT中常见的形态学错误、句法错误和词序错误。于是,神经机器翻译工具开 始涌现并开源,外有 Google 的 GNMT、哈佛 NLP 与 SYSTRAN 联合打造的 OpenNMT,内有 清华大学开源的TH
展开阅读全文