2020-2021年AI全景研究报告.pdf

返回 相关 举报
2020-2021年AI全景研究报告.pdf_第1页
第1页 / 共19页
2020-2021年AI全景研究报告.pdf_第2页
第2页 / 共19页
2020-2021年AI全景研究报告.pdf_第3页
第3页 / 共19页
2020-2021年AI全景研究报告.pdf_第4页
第4页 / 共19页
2020-2021年AI全景研究报告.pdf_第5页
第5页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2020-2021年AI全景研究报告 - 1 - 2020年AI全景报告【译者按】自 2018 年 始 , 剑 桥 大 学 博 士 Ian Hogarth 与 Nathan Benaich合 著 发 布 AI全 景 报 告 。 报 告 调 查 访 问 全 球 多 个 人 工 智 能 知 名 科 技 公 司和 研 究 小 组 , 全 方 位 总 结 过 去 一 年 人 工 智 能 领 域 的 研 究 进 展 、 人 才 形 势 、产 业 形 势 和 政 府 政 策 。 2020 年 10月 发 布 的 年 度 报 告 指 出 , 当 前 人 工 智 能研 究 的 开 放 性 并 不 高 ; 美 国 仍 是 当 前 人 工 智 能 国 际 研 究 中 心 ; 人 工 智 能 在医 疗 领 域 发 展 迅 猛 ; 人 脸 识 别 面 临 隐 私 风 险 , 亟 待 有 效 监 管 等 。 在 报 告 的最 后 , 作 者 对 未 来 人 工 智 能 领 域 做 出 了 八 大 预 测 。 赛 迪 智 库 工 业 经 济 研 究所 对 该 报 告 进 行 了 编 译 , 期 望 对 我 国 有 关 部 门 有 所 帮 助 。【关键词】AI机器学习模型人才政策 人工智能(AI)是一门致力于研究制造各种智能机器的综合性学科。我们相信,在日益数字化和数据驱动的当下,AI将不断推动技术进步。届时,我们生活的方方面面,从文化到消费产品,都与AI密不可分。本文旨在围绕全球AI在研究进展、人才形势、产业动态、政府政策四个方面的发展情况进行探讨分析。一、研究进展( 一 ) AI 学 习 框 架 、 语 言 和 模 型1、AI的开放性并没有我们预想的那么高大多AI技术都封闭源代码,只有15的AI论文公布了其源 代码。自2016年中以来,这种情况几乎没有得到改善。一般来讲,与学术机构相比,行业机构更不倾向于发布其代码。OpenAI和DeepMind1这两大著名机构就没有发布其所有代码。对于大型科技公司而言,它们的代码通常与不能对外发布的专利性内容交织在一起。2、在深度学习框架上,PyTorch逐渐受到欢迎在AI相关研究论文中,对Facebook的机器学习框架PyTorch的使用迅速超过谷歌的机器学习框架TensorFlow。PyTorch提供更大的灵活性和动态计算图,使实验变得更加容易。在这些论文 中有20-35%提到了他们使用的框架,其中有75使用了PyTorch,而非TensorFIow。2018年,在161位作者中,多数人发表的论文都是基于TensorFLow框架,但现在有55转向了PyTorch。在代码托管平台GitHub上发布的论文中,PyTorch也比TensorFlow受欢迎。其中,47的论文实现基于PyTorch,而18基于TensorFIow。3、自然语言处理全新评估基准SuperGLUE正式发布GLUE是在一系列任务中评估自然语言处理系统的基准,这些任务涉及逻辑、常识理解和词汇语义。就在12个月前,在GLUE基准测试中,人类被AI超越1分。2019年8月,自然语言处理 (NLP)全新评估基准SuperGLUE正式发布。基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。4、模型参数和模型性能调整花费巨大现阶段,哪怕略微提升一下模型性能,我们都需要付出高昂的计算、经济和环境成本。如果没有新的重大突破,将ImageNet错误率从11.5降至1将需要超过千亿美元的费用。许多从业者认为想要在机器学习的成熟领域进行突破变得十分困难。要实现相同的性能,较大模型比较小模型需要的数据更少,这会对训练数据样本生成成本昂贵的领域产生影响,而对使用基于监督学 习的模型进入新领域的大公司来说是优势。( 二 ) 生 物 学 相 关 AI 技 术生物学正经历其“AI时刻”。自2017年以来,涉及生物学AI方法(如深度学习、自然语言处理、计算机视觉、强化学习)的出版物同比增长超过50%。2019年以来发表的论文占2000年以来总产出的25%,2020年,有超过21000篇涉及生物学的AI论文发表。1、因果推理助力机器学习大多数机器学习应用程序使用统计技术来探索变量之间的相关性。这就要求实验条件保持不变,并且训练后的机器学习系 统只能应用于与训练数据相同的数据。这个过程忽略了人类学习的一个主要组成部分因果推理关系。有时我们需要了解策略变化对结果的影响,如,医生是否应该给病人进行某个特定疗程的治疗。基于相关性的机器学习系统并不能达到该设计目标,因为一旦策略发生变化,输入和输出变量之间的关系将与训练数据不同。因果推理明确地解决了这个问题,这将是一种有效的新方法,使机器学习系统能够更快普及,功能更加强大,并为决策提供更具参考价值的意见。2、图形神经网络可以利用3D输入数据解决问题大多数深度学习方法侧重于从2D输入数据学习。图形神经 - - 网络(GNNs)是一个新兴的处理3D数据的方法。一个团队利用分子及其二元抗生素毒性的经验数据训练出了一个图形神经网络。这个模型对数百万种潜在的抗生素化合物进行筛选,最终找到一种结构不同的抗生素Halicin(暂命名为海利霉素),其在小鼠体内具有广谱活性。3、AI可通过用DNA编码的小分子文库(DEL)对化学空间进行筛选用DNA编码的小分子文库是由数百万到数十亿个小分子组成,这些小分子带有独特的DNA标签,可以看作是大分子的砌块。基于用DNA编码的小分子文库数据训练图形神经网络,并 将其应用于三种不同的蛋白质靶点,在30微米时产生72%(sEH)、33%(ERa)和16%(c-KIT)的命中率。这与传统的高通量小分子筛选(无机器学习)形成鲜明对比,后者的命中率通常为1%左右。4、语言模型有助于仅依靠氨基酸序列预测蛋白质特性蛋白质是一种生物分子,可以通过晶体结构(167000)或氨基酸序列(2400万)对其进行描述。与学习单词向量的过程类似,这项工作表明,通过循环神经网络(RRN)学习得出的氨基酸序列表征,可以预测不同蛋白质的各种结构和功能特性。( 三 ) 其 他 相 关 AI 技 术 1、计算机视觉任务获得更多关注,如目标检测和图像分割像Faster R-CNN这样的流行模型需要利用各种各样的方法将先验知识手工编码到体系结构中,以便做出针对初始猜测的预测。DEtection TRansformer(DETR)是一个基于transformer的目标检测模型,能够在不需要手工编码的先验知识和只需要一半的计算预算的同时,匹配最佳目标检测模型的性能。DETR通过端到端的损失函数进行训练,该函数能够将预测对象和真实对象匹配起来。2、通过深度学习在建筑中使用消费级360摄像头360摄像头是快速记录整个场景的强大工具,但不能始终 返回水平图像,这对计算机视觉模型的性能产生负面影响。但是,最先进的几何深度学习方法,能够调整未对齐的360图像。通过同时使用几何线索和深度分割网络,可以在球形图像中找到垂直方向并使之旋转,从而使图像与地面齐平。该系统的性能明显优于之前最先进的方法。3、联邦学习于2016年由谷歌发起,目前正在蓬勃发展从2018年到2019年,提及联邦学习(Federated Learning)的论文数量几乎增长了5倍。2020年上半年发表的相关论文数量超过了2019年全年的数量。OpenMind是领先的隐私保护机器学习开源社区,它展示了第一个针对网络、手机、服务器和物联网 - 7 - 的开源联邦学习平台。这使得利用网络浏览器或移动设备上的隐私数据来训练任意神经模型成为可能。二、人才形势( 一 ) 高 校 AI 人 才 形 势1、高校的人才流失似乎对学术和创业产生了重大的负面影响在2004年至2018年间,谷歌、DeepMind、亚马逊、微软从美国高校聘用了52名终身教授。同期,卡内基梅隆大学、华盛顿大学和伯克利大学有38名教授离职。值得注意的是,2004年 没有AI教授离职,但仅2018年就有41名AI教授离职,据调研发现,AI终身教授离职4-6年后,毕业生创办AI公司的可能性降低了4%。2、对神经信息处理系统大会(NeurIPS)做出贡献的研究人员中,在中国接受教育的研究人员越来越多2019年入选神经信息处理系统大会的作者中,29%是在中国获得的本科学位,比2018年高出5个百分点。但在中国高校本科毕业后,54%的毕业生会前往美国继续攻读学位并在神经信息处理系统大会发表论文。本科阶段在神经信息处理系统大会发表论文的外国作者中,超过一半毕业后会前往美国。 - 8 - 3、AI人才供给加强,但仍供不应求顶尖大学继续扩大AI课程的招生,斯坦福大学现在每年学习AI的人数是1999-2004年的10倍,是2012-2014年的两倍。但当前AI人才需求仍大于供给,I网站美国数据显示,AI相关职位的发布量几乎是职位浏览量的3倍。从2016年末到2018年末,职位发布量的增长速度是职位浏览量的12倍。( 二 ) 美 国 AI 人 才 形 势1、全球主要AI学术会议论文的接收,仍旧由美国的相关机构和公司主导美国的机构和公司在2019神经信息处理系统大会上发表论 文的数量和质量继续名列前茅:谷歌、斯坦福大学、芝加哥大学、麻省理工大学和微软研究院位居前五。2020国际机器学习大会论文录取量排名前20位的机构,继续保持了其在2019国际机器学习大会上的排名,美国机构保持主导地位。2、美国AI生态系统由外国人才推动大多数在美国工作的顶级AI研究人员,都不是在美国接受本科教育的。中国(27%)、欧洲(11%)和印度(11%)是美国AI人才的最大几个输送国。3、美国AI人才毕业去向美国是一个非常强大的博士后人才储备国家。在美国获得博 - 9 - 士学位的中国和非中国学生中,有近90%的人会留在美国工作。美国AI博士项目的外国毕业生最有可能进入大公司工作,而美国本土毕业生更有可能进入初创公司或学术机构工作。在美国获得AI博士学位后,并不是所有人都留在美国,有些人会选择前往其他国家,其中英国和中国是最大目的国(如图1)。图1:美国AI博士毕业去向 三、产业动态( 一 ) 生 物 医 药 领 域1、AI研发出一款用于治疗强迫症的药物 - 1 0 - 该药物第一阶段临床试验已经在日本开始,这是英国Exscientia公司和大日本住友制药株式会社12个月的合作成果。该药物DSP-1181是5-羟色胺受体的激动剂,是大脑中调节情绪的信号分子。虽然强迫症的发病机制尚未明确,但使用受体激动剂增强5-羟色胺信号可以改善强迫症症状。这项研究利用AI技术生成了数以千万计的对抗5-羟色胺受体的潜在分子,并对候选分子进行筛选,以决定哪些分子优先用于合成和测试。只有350个候选化合物在实验中接受测试,最终找到了DSP-1181。2、深度学习将超分辨率显微镜成像的采集到分析都进行了改进 监督学习和计算机视觉将人类显微镜用时从数小时缩短到几分钟。用超分辨显微镜对样本进行评估通常需要专业人士进行,而利用深度学习开发的分析系统能够自动执行这些目视检查任务,并完成非专业人士也能理解的超分辨率成像。3、美国医疗保险和医疗补助服务中心(CMS)鼓励对基于深度学习的医疗成像产品进行补贴Viz.ai公司从美国医疗保险和医疗补助服务中心(CMS)获得了一项新技术附加支付补贴,适用于疑似中风患者,每例最高补贴1040美元。该技术是AI系统对大脑进行计算机断层扫描(CT),并将扫描结果直接发送给专家,节省了宝贵时间。专家 - 1 1 - 可以及时对病患进行治疗,避免因抢救不及时导致病患落下长期残疾。其系统对大脑血管阻塞检测正确率高达约90%,并能够排除90%没有阻塞的病人。这意味着神经科医生可以优先选择合适的病人进行紧急治疗。从美国医疗保险和医疗补助服务中心获得补贴这一步至关重要,有助于将AI等新系统应用于临床医学。( 二 ) 自 动 驾 驶 领 域1、自动驾驶仍然做不到无人驾驶自2018年以来,在加州66家拥有自动驾驶车辆透明度和参与安全性(AV)测试许可证的公司中,只有3家获准在没有安全员的情况下进行测试。为了获得无人驾驶测试许可证资格,公司 必须出示保险证明或500万美元的保证金,证明他们的汽车可以在没有司机的情况下行驶,并符合联邦机动车安全标准,或者获得了国家公路交通安全管理局的豁免。2、机器学习成为自动驾驶开发的新前沿当前的自动驾驶系统中,大多数机器学习只关注了解车辆周围的情况。自动驾驶汽车开发因此变得困难重重,停滞不前。然而,类似AlphaGo并基于大量人类驾驶示范进行训练的新算法正在开发中。最近,Waymo、Uber和Lyft都展示了模仿学习和逆强化学习的新技术。Lyft发布了一个新的1000小时数据集,用于开发这些系统。新的数据集可以改变现有领先企业的权力平衡局 - 1 2 - 面。很少有企业能够收集足够的数据来全面训练这些新型系统。能够利用海量人类驾驶数据的公司可以推动新模型的创新。3、随着AI越来越普及,监管机构对开发人员提出更高要求外部监管的关注点从业务指标过渡到低级别模型指标。这给AI应用程序供应商带来了挑战,包括部署速度变慢、IP共享等。( 三 ) 企 业 应 用 领 域1、机器人流程自动化(RPA)和计算机视觉是最常被企业使用的技术一项对全球1872家企业的调查结果显示:AI使成本降低,收入增加。3%的受访者中,“高绩效企业”报告了11个AI用例, 而普通企业只有3个。零售企业AI用例同比增长最大。AI在具有核心竞争力的领域的应用越来越广泛。在受访者中,机器人流程自动化仍旧是企业最爱,而语音、自然语言生成和物理机器人是最不常用的。2、AI对话助理已开始服务英国客户AI语音助理开始在餐饮企业发挥作用,PolyAI公司在英国餐饮业推出的语音助理系统能够接听预订电话,为有特殊饮食需求的食客提供帮助,并提供COVID-19指南。借助公司最新的深度学习技术,该系统可以辨认客户在电话线路中的声音,成功率在90%以上。随着技术不断进步,我们看到,新的AI助理从交互中 - 1 3 - 学习的速度比其前辈(如Siri或Alexa)要快得多。3、数控机床编程开始自动化数控机床每年生产价值超过1680亿美元的零部件用于制造业。CloudNC公司正在对数控机床进行编程自动化。制造一个简单的组件会有大量不同的方法,人类始终无法找到最佳的制造解决方案,这导致生产效率较低。CloudNC的工厂操作系统用自动软件取代了专业人员,大大提升了生产效率。( 四 ) 其 他 应 用 领 域一是计算机视觉能够检测出身份证件被篡改的细微痕迹。随着越来越多的身份证件数字化,Onfido的AI系统学会了检测网 上泛滥的假证件。二是AI有助于防止网络洗钱和恐怖融资。在传统反洗钱工作中,合规人员需要根据关键字进行大量的手动搜索,工作常超负荷。而ComplyAdvantage公司利用深度学习技术,可以覆盖所有重点地区高达85%的风险数据。三是机器翻译实现全球范围内金融犯罪分类。机器翻译被用于生成针对金融犯罪分类的多语言训练数据。这种方法显著地减少了前置时间,从英语语言环境下的20周减少到每种欧洲语言环境下只需要不到2周,同时保持了80%以上的准确率。四、政府政策 - 1 4 - ( 一 ) 人 脸 识 别 领 域人脸识别在世界各地已经非常普及。目前世界上有50%的国家允许使用人脸识别。只有3个国家(比利时、卢森堡、摩洛哥)发布了对这项技术的禁令,只允许在特定情况下使用。以下是关于人脸识别应用的一些隐私、风险、法律等相关案列。1、Facebook解决了一项集体诉讼,赔偿用户6.5亿美元伊利诺伊州的生物识别信息隐私法案是美国在该领域最严格的法律,按照其规定企业在收集生物识别数据之前必须获得许可。2015年提起的集体诉讼称,Facebook在2010年推出的照片标签功能并没有遵守伊利诺伊州的生物识别信息隐私法案。 最终,每个受影响的用户获赔200-400美元。2、华盛顿州通过了一项人脸识别新法律2020年3月,华盛顿州通过了美国第一部严格限制执法部门使用人脸识别技术的州法律,这项新法律要求政府机构必须获得授权才能进行人脸识别扫描,而且所使用的人脸识别软件必须通过应用程序接口(API)访问一个独立的第三方。该法律还要求对执法人员就人脸识别的使用进行训练,并公开报告使用情况。3、英国的一起新案例强调“人脸识别工具不能过于激进或造成伤害”英国高等法院首次审理了一起关于警方使用自动人脸识别技 - 1 5 - 术的案子。来自威尔士加的夫的Ed Bridges起诉称,他在圣诞节购物时被拍照,这一做法侵犯了他的人权。尽管法官作出了不利于原告的裁决,但也为警察确立了一项重要的新职责,即确保主动“消除”歧视。这也意味着,不能等待技术完全成熟之后再采取法律行动。重点是现在就要对人脸识别技术进行监管,而不是要等到伤害事件发生之后再采取行动。然而,南威尔士警方发言人明确表示,警方计划将继续使用人脸识别技术。4、中国亟待立法对人脸识别进行规范浙江理工大学的郭兵教授起诉当地一家野生动物园违反了消费者权益保护法,因为该公园将人脸识别登记作为游客入 园的强制性要求。郭兵的诉讼主要关注数据泄露风险:“数据一旦泄露,非法滥用将很容易危及消费者的安全”。此后,野生动物园改变了其入园政策,允许游客在人脸识别或指纹识别之间进行选择。中国对人脸识别的使用极其广泛,但有迹象表明,隐私问题引起了越来越多的关注。教育部科技司司长雷朝滋呼吁“遏制和规范”在校园里使用人脸识别技术。信息安全技术个人信息安全规范是中国一项新的数据隐私标准,目前正在腾讯和支付宝等公司试用。( 二 ) 半 导 体 领 域1、美国参议院提出为美国生产半导体(芯片)的激励措施法 - 1 6 - 案虽然世界上一半以上的先进芯片是在美国设计的,但只有12%是在美国制造的。为美国生产半导体(芯片)的激励措施法案将拨出220亿美元补贴美国芯片制造业。补贴项目包括100亿美元的联邦匹配资金、国防部相关资金和120亿美元的相关研发资金。这项两党法案旨在提升美国的竞争力。美国还要求英特尔和三星生产更多美国制造的芯片。2、中国政府设立二期基金支持半导体产业发展中国是全球最大的半导体进口国,每年进口总额达2000亿美元。此前,第一支由中国政府主导的国家集成电路产业投资基金 于2014年设立。2019年,中国政府投资290亿美元,设立第二期国家集成电路产业投资基金,旨在投资半导体行业,以降低对美国半导体技术的依赖。( 三 ) AI 投 资 及 推 进 情 况1、美国AI预算继续扩大AI继续成为美国最重要的科技投资领域。2019年2月,特朗普总统签署了13859号行政令,旨在保持美国在AI领域的领先地位。2021年的拟议支出为15亿美元。这些非军事性投资涵盖农业部、能源部和卫生部。美国国防部联合人工智能中心的预算持续扩大,从2019年的9300万美元增加到2020年的2.38亿 - 1 7 - 美元。2、中国将在多个城市推行AI试验区中国着手创建“国家新一代AI创新发展试验区”。中国科学技术部制定了城市建立AI试验区的流程。到2023年,将有20个AI试验区建成。成为AI试验区的城市被激励加快AI在各个领域的应用,从制造业到照顾老人和残疾人等。AI试验区还被激励开展AI政策试验和开展AI社会试验。德清县被列示范县。该县将重点发展自动驾驶和智慧农业。五、对未来十二个月的预测 1、搭建更大语言模型的竞争仍将持续,我们将会见证第一个10万亿参数级模型的诞生。2、基于注意力的神经网络将从自然语言处理领域迁移到计算机视觉领域,实现新SOTA效果2。3、随着母公司战略的调整,一家大型企业的AI实验室将关闭。4、作为对美国国防部活动和美国军事AI初创公司融资的回应,一部分中国和欧洲的国防AI企业将在未来的12个月内融资超过1亿美元。 2 SOTA效果:State-Of-The-Art result,一般是说在该领域的研究任务中,此研究的结果对比已经存在的模型及实现结果具有最好的性能/结果 5、一家领先的AI药物发现初创公司(比如Recursion、Exscientia)要么IPO上市,要么以超过10亿美元的价格被收购。6、DeepMind将在结构生物学和药物发现方面取得重大突破,超越AlphaFold。7、Facebook将凭借3D计算机视觉技术在AR和VR上取得重大突破。8、英伟达最终不会完成对ARM的收购。译自:State of AI Report 2020,October 2020 by Ian Hogarth andNathan Benaich
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642