资源描述
2021-2022人工智能基础设施发展态势报告 前 言 人工智能基础设施作为“新基建”的重要部分,是人工智能产业赋能经济社会的关键载体, 为壮大数字经济产业发展、加速迈向智能社会提供强大牵引力, 受到业界的重点关注 , 主要国家 和地区纷纷 加快 人工智能基础设施布局 。 近年来,我国重视并积极支持人工智能基础设施发展, 各地出台 了 相关 政策 围绕 数据集、智能计算中心、 开源 开放平台等进行 重点布局 , 推动 人工智能基础设施建设 。 为 更好认识人工智能基础设施及我国最新发展态势, 加强各方交流合作, 共同推动 基础设施持续 健康发展 ,中国信息通信研究院政策与经济研究所 、产业与规划研究所联合 人工智能与经济社会研究中心 研究 团队 ,开展深入调研 编写了 本报告 。 报告首先介绍了人工智能基础设施各地布局情况,然后从数据集、算力和开源开放平台等三方面系统梳理了我国人工智能基础设施最新发展态势,在此基础上剖析了 AI 基础设施赋能各行业的若干典型案例,并对未来人工智能基础设施发展趋势做了相关展望,供各方参考交流 ,不妥之处还请批评指正 。 目 录 一、主要国家 和地区 加快人工智能基础设施布局 . 1 (一)美国持续加强 AI 基础设施部署 . 1 (二)欧盟致力提升数字基础设施水平 . 2 (三)日韩积极推动 AI 基础设施发展 . 2 二、我国人工智能基础设施呈现蓬勃 发展态势 . 4 (一)各地加速 AI 基础设施建设 . 4 (二)数据集开放共享不断加快 . 8 (三)算力总规模持续高速增长 . 12 (四) AI 开源开放平台逐步壮大 . 17 三、人工智能基础设施赋能行业发展典型案例 . 22 (一)武汉智能计算中心加速遥感测绘产业创新 . 22 (二)百度大脑构建行业数字化转型技术大底座 . 23 (三)鹏城云脑大科学装置助力科研范式变革 . 25 (四)自动驾驶开放平台推动汽车产业升级 . 26 四、人工智能基础设施发展展望 . 28 (一)智能算力规模占比将持续扩大,智算中心成为重要发展方向 . 28 (二)数据开放共享现蔚然成林之势,有效数据集将呈爆发式增长 . 28 (三)开源开放平台主体多元化发展,巨量模型将成创新突破路径 . 29 (四) “云智一体 ”基础设施加速融合,助力千行百业数智化升级 . 30 (五)赋能平台架起 AI 融合创新桥梁,促进技术应用规模化落地 . 30 图 目 录 图 1 人工智能基础设施核心内涵 . 4 图 2 由 Dataset Search 索引的数据集的数量增长 . 9 图 3 我国地方政府开放平台数量 . 10 图 4 我国算力发展规模 . 13 图 5 AI 云端芯片算力发展趋势 . 14 图 6 2020 年上半年全球 AI 服务器市场份额 . 15 图 7 各地建设布局智能计算中心情况 . 16 图 8 人工智能应用开放平台主体特点 . 30 表 目 录 表 1 八大先导区人工智能政策 . 5 表 2 2019 年 6 月至 2020 年 3 月数据集数量和百分比 . 9 表 3 省份 /直辖市政府数据开放平台上线时间 . 10 表 4 全球主要深度学习开发框架情况 . 18 表 5 全球 2020-2021 年超大规模预训练模型及参数 . 20 表 6 Apollo X 典赋能生态合作伙伴联手打造典型汽车机器人 . 27 1 一、 主要国家 和地区 加快 人工智能基础设施 布局 人工智能作为 新一轮科技革命和产业变革 的战略性技术 , 正在 对经济发展、社会进步、全球治理等方面产生重大而深远影响 , 加快人工智能基础设施布局已成全球主要国家战略重点 。 (一) 美国持续加强 AI基础设施部署 自 2008 年国际金融危机以来,美国不断加强在新型基础设施领域的战略部署,旨在通过加大基础设施建设来提升产业竞争力,实现经济复苏,并确保全球科技创新的领先地位。在人工智能领域,美国同样不断跟进政策,以保持在全球人工智能的领导地位,人工智能基础设施建设是其中重要的布局之一。 一是加强人工智能基础设施及关键核心技术的研发投入 。在 2019-2021 财年美国工业发展领域研发优先事项中,人工智能、自动驾驶、智能制造、工业机器人等技术领域成为优先布局。 2021 年 7 月,美国国家科学基金会计划投资 2.2 亿美元新建 11 个国家人工智能研究中 心,覆盖人工智能和高级网络基础设施、人机交互与协作等研究领域。预计未来四年内将投资 3000 亿美元用于 5G、人工智能、先进材料等提升美国竞争力的新的突破性技术。 二是组建更灵活的组织机构保障政策实施。 一方面,构建先进计算生态系统,成为跨越政府、学术界、非营利组织和产业界的国家战略资产。另一方面,成立工作组,研究利用云平台提供按需、弹性和自助式的大规模资源访问,为获取计算和数据资源提供了一个 “快速路径 ”。此外,成立国家人工智能研究资源 (NAIRR) ,向人工智能2 研究人员提供更多的政府数据。 三是强化关键基础设施技术的 自主可控。 对关系国家战略安全、影响国家竞争优势的基础设施领域,美国支持本国企业主导建设全过程,强化技术自主可控。 (二) 欧盟致力提升数字基础设施水平 2020 年 2 月,欧盟委员会提出超过 40 亿欧元的 “数字欧洲计划 ”来支持高性能 计算 和量子计算,包括边缘计算和人工智能、数据和云基础设施。 2020 年 4 月,欧盟对“欧洲高性能计算共同计划” 1做出相应调整,宣布投资 80 亿旨在 “ 为欧洲打造世界级的超算生态系统奠定基础,维持并提升欧洲在超算和量子计算领域的领先水平 ”。 今年 4 月,欧盟委员会发布 作为 指导各成员国协调行动、共同实现欧盟人工智能发展目标的最新文件人工智能协调计划 2021 年修订版,提出要 充分利用人工智能相关数据,开发其潜在价值; 并 推动关键计算基础设施建设,以提升人工智能相关能力 等 。 (三) 日韩积极推动 AI基础设施发展 日本 结合传统机械制造及机器人技术方面的强大优势, 推动人工智能、 5G 等领域基础设施布局。 2019 年 6 月,日本政府出台人工智能战略 2019,旨在建成人工智能强国,并引领人工智能技术研发和产业发展 。 2020 年 7 月,日本政府发布统合创新战略 2020, 提出构建支持社会 5.0 的基础设施 ,实现超级计算机在大学、国立科研 1 2018 年, 欧盟 推出欧洲高性能计算共同计划,计划投资 80 亿欧元选定 8 个地点建设世界级超级计算机中心,用于个性化医疗、药物和材料设计、生物工程、天气预报及气候变化等领域。 3 机构、产业界的共享利用。 韩国依托三星等巨头企业,大力推动半导体发展。 2020 年 10 月 ,韩国发布“人工智能半导体产业发展战略”,计划到 2030 之前其人工智能半导体全球市场占有率达 20%,实现 “人工智能半导体强国 ”目标。 目前,韩国已开始加快开发服务器、移动端、 IoT 电子产品用 NPU(神经网络处理器 )以及研发半导体新材料、精细工艺和装备技 术等 。 4 二、 我国 人工智能基础设施 呈现蓬勃发展态势 人工智能基础设施作为“新基建”的重要部分, 我国重视并积极支持人工智能基础设施建设发展 , 在公共数据集、行业资源库、计算平台、 AI 芯片、算法学习框架、开放 AI 平台、网络基础设施等人工智能基础设施方面重点布局 。 报告认为人工智能基础设施 是以算力要素 能力、数据要素能力、算法要素能力构成的基础能力平台为底座,以应用开放平台等为主要载体,以赋能制造、医疗、交通等 重点 行业和领域智能化转型为目标,为实现壮大智能经济、构建智能社会的专有服务设施能力体系。 当前 , 我国人工智能基础设施尚处于初期, 发展迅猛 ,其发挥的效力及释放的价值还有很大的想象空间。 图 1 人工智能基础设施核心内涵 (一) 各地加速 AI基础设施建设 各地积极出台政策支持人工智能基础设施发展, 已有较为清晰的建设思路,如北京、上海、广东聚焦基础研究领域,江苏、浙江、福建、山东偏重应用层面。 工信部批复的 八大 人工 智能创新应用先导区是 我国人工智能基础设施建设的先行先试区 。八大先导区 先后发布人 5 工智能行动方案,方案 围绕 公共数据集、先进计算 /超级计算机 /智能计算、智能感知 /智能网联 /智能芯片等人工智能基础设施 进行 重点布局。 表 1 八大先导区人工智能政策 序号 地域 发布时间 政策 1 北京 2021 年 6 月 北京市加快新型基础设施建设行动方案( 2020-2022 年) 2 天津(滨海新区) 2021 年 5 月 天津市制造强市建设三年行动计划 3 杭州 2019 年 12 月 杭州市建设国家新一代人工智能创新发展试验区行动方案 4 广州 2020 年 2 月 广州人工智能与数字经济试验区建设总体方案 2020 年 6 月 广州市关于推进新一代人工智能产业发展的行动计划 5 成都 2021 年 5 月 成都高新区创建成都国家人工智能创新应用先导区行动计划 6 上海(浦东) 2020 年 6 月 关于建设人工智能上海高地 构建一流创新生态的行动方案( 2019-2021年) 7 深圳 2019 年 5 月 深圳新一代人工智能发展行动计划( 2019-2023 年) 8 济南 - 青岛 2020 年 5 月 济南 -青岛人工智能创新应用先导区融合发展实施方案 来源:根据公开资料整理 1北京布局突出算法框架与开放平台 北京超前布局人工智能,在算力、算法框架及算法平台等人工智 6 能基础设施方面取得较大进展,均位列全国首位。 算力方面, 北京超级云计算中心立足北京、辐射全国、构建出了国内领先、国际一流的信息化基础设施及公共服务平台。面向科学计算、工业仿真、人工智能等重点行业应用领域,提供 3.74PFLOPS 的 “超级云计算 ”服务。 算法框架方面 ,北京诞生了 飞桨( PaddlePaddle)、旷视天元、 Jittor、Oneflow 等国内领先的算法框架。其中, 飞桨 是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。 数据方面, 北京市开放单位数 103 个、数据集 10198 个、数据项 444332 个、数据量 57.18亿条,在 2020 年下半年的政府数据开 放省级排名中,综合表现 名列前茅 。 开放平台 方面 ,无论是基础研究还是应用方面都有强有力的布局 。科技部批复的 15个国家人工智能开放平台中 有 7个都落地北京,包括百度自动驾驶人工智能开放创新平台、旷视科技图像感知人工智能开放创新平台、奇虎安全大脑人工智能开放创新平台、京东智能供应链人工智能开放创新平台等, 在全国 拥有绝对 领先优势 。 2 上海布局突出算力 设施 与 开放 平台 上海作为全国首个人工智能应用创新先导区,高度重视人工智能基础设施布局,近年来创建了多个新型研发机构、研发与转换功能型平台等,在应用、数据方面表现突出。 算力方面, 2021 年底,腾讯长三角人工智能超算中心、商汤新一代人工智能计算与赋能平台将于上海建成, 2025 年底,阿里云华东智能算力中心也将在上海建成。三大智算中心建成后将很快为上海的算力补上短板,并辐射整个长三7 角地区。 算法框架方面, 上海主要有商汤公司自研的深度学习框架SenseParrots,经过几年连续三代的迭代,已经形成了集成训练开发环境、数据与计算工具链 等服务的完整人工智能系统框架,从而有效支持工业级规模的算法训练,提高人工智能技术的研发和部署效率,解决大量个性化需求,目前尚未开源。 数据方面, 上海市公共数据开放平台,现已开放 5209 个数据集(其中 2401 个数据接口), 50 个数据应用, 45043 个数据项,共 992101427 条数据,其中经济建设类数据最多。目前,利用开放数据产生的有效成果 9 个,全国第一。 开放平台方面 ,上海市主要依托高校、区政府及行业力量创办新型研发机构,并以此为基础建设 AI 开放平台,针对本地基础好,有需求的领域优先进行建设,目前在基础研究、智 能制造、智能交通领域都已建有 AI 开放平台 。 3 深圳 重点 布局 大 算力 设施 深圳在华为、腾讯、招商银行等大型企业的带领下,人工智能算力投资位于全国第二位。算力、算法、数据方面,深圳市均有较为优秀的表现。 算力方面, 深圳拥有深圳超算中心与鹏城云脑两大算力资源。其中,深圳超算中心是世界上最早布局的人工智能超算中心之一,算力达到 E 级,支持气象预报、基因测序等应用场景,并面向智慧城市、智慧健康、智慧教育等多个领域提供服务。支撑广东省十个省实验室、深圳 90%以上的新型研发机构算力使用。鹏城云脑,作为华为与鹏城实验室共建的计 算中心,算力达到 1024PFLOPS,服务广东省8 十个省实验室、深圳 90%以上的新型研发机构。 算法框架方面, 深圳拥有腾讯与华为自研的 Angle, MindSpore 算法框架。其中,腾讯 Angle框架是 CSDN 2020-2021 中国开发者调查报告中上榜的两个国产框架之一。 数据方面, 深圳市政府数据开放平台开放数据目录 2456个,数据项 25087 项,数据总量 501620562 条,数据接口 2427 个,应用成果总量 22 个。在 2020 年下半年的地级(含副省级)排名中,深圳等地综合表现最优,开放数级位列第一等级 2。 ( 二 ) 数据集开放共享不断加快 数据 资源是人工智能技术产业创新发展的 三大驱动力之一 。 数据集 作为数据资源的核心组成部分, 是指经过专业化设计,采集、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。 全球主要国家 均 将 构建高质量数据集 作为人工智能战略重点之一。我国数据开放共享加快, 企业积极推动数据集开放,超大规模数据集不断涌现,随着人工智能与实体经济融合逐步深入,海量数据优势将进一步显现。 1 数据集规模我国增速明显 全球 数据总量爆炸式增长 , 据 IDC 预测,全球每年生产的数据量将从 2016 年的 16.1ZB 猛增至 2025 年的 163ZB。 数据集 也 随之 呈现 迅猛 增长 态势 ,谷歌数据集搜索引擎数据显示,截至 2021 年初,共收录了自 4600 多个网站的 3100 多万个数据集(图 1),超 2018 年的 3 倍。我国数据集增速明显, 2020 年 3 月谷歌数据集搜索结果中 2 数据来源:中国地方政府数据开放报告( 2020 下半年) 9 文数据集达 185.1 万, 2019 年 6 月至 2020 年 3 月期间增速达 82%,但英文数据集超 1800 万个。 来源: Google Dataset Search by the Numbers 图 2 由 Dataset Search 索引的数据集的数量增长 表 2 2019 年 6 月 至 2020 年 3 月数据集数量和百分比 来源: Google Dataset Search by the Numbers 此外,不完全统计,我国政府开放数据集总量从 2019 年 7 万余个迅速增长到 2021 年超 30 万个,增幅超 4 倍,其中主要省级政府开放数据集 top10 总量约 23 万个,其中山东、浙江、贵州、北京等最多。 50000001500000025000000350000002018年 7月 2018年 10月 2019年 2月 2019年 5月 2019年 8月 2019年 12月 2020年 3月 2020年 6月 2020年 9月 2021年 1月 2021年 4月10 2 政府公共数据集加速共享 我国高度重视数据资源开放共享,十四五规划提出 “扩大基础公共信息数据有序开放,建设国家数据统一开放共享平台 ”, “优先推动企业登记监管、卫生、交通、气象等高价值数据集向社会开放 ”。自2017 年起加速, 截至 2021 年底,我国已有 179 个省级 /直辖市和城市的地方政府上线了数据开放平台,其中省级平台 19 个,直辖市 4 个,城市平台 156 个。与 2020 年下半年相比新增 33 个地方平台,其中包含 2 个省级平台和 31 个城市平台。 来源: 根据公开资料整理 图 3 我国地方政府开放平台数量 我国政府数据开放平台上线顺序整体上呈现出从东南部地区向中西部地区不断延伸扩散的趋势,且广东省、广西壮族自治区、山东省、四川省与浙江省的省(自治区)本级和下辖绝 大部分地市都已上线了数据开放平台。具体省份 /直辖市及上线时间如下表: 表 3 省份 /直辖市政府数据开放平台上线时间 年份 政府数据开放平台 11 2015 浙江 2016 浙江、贵州、广东、北京 2017 浙江、贵州、广东、北京 2018 浙江、贵州、广东、北京、陕西、山东、宁夏、江西、河南 2019 浙江、贵州、广东、北京、陕西、山东、宁夏、江西、河南、新疆、四川、江苏、海南、福建、重庆、天津、上海 2020 浙江、贵州、广东、北京、陕西、山东、宁夏、江西、河南、新疆、四川、江苏、海南、福建、重庆、天津、上海、青海、湖南、湖北、广西 2021 浙江、贵州、广东、北京、陕西、山东、宁夏、江西、河南、新疆、四川、江苏、海南、福建、重庆、天津、上海、青海、湖南、湖北、广西、河北、安徽 来源: 根据公开资料整理 3 企业积极推动数据集开放 我国互联网巨头、大型科技企业、 AI 技术企业积极构建 AI 开放数据生态、共享共建数据集,企业开放数据平台逐步增多,如百度飞桨 开放数据集已收录近 10000 个,其中 2020 年,百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的千言开源数据集项目, 获得广泛关注和使用,截止 2021 年 12 月份, 数据集下载量增长 134%,相关任务的提交次数增长 649%,增长非常显著;数据集已从开始的 7 个增加值 36 个,吸引了 清华、哈工大、中科院、美团、 OPPO 等 14 家单位的数据集作者加入共同建设。阿里天池已汇聚超 3000 多个数据集,涵盖计算机视觉,自然语言处理,金融,电商,医疗,工业,农业等多领域,目前已有 700 多篇顶级学术论文使用天池数据集进行研究。 12 超大规模数据集不断涌现。 2019 年,旷视科技与北京智源人工智能研究院共同发布发布全球最大的通用物体检测数据集Objects365,包含 63 万张图像,覆盖 365 个类别, 1000 万框数,数据质量和体量远超 ImageNet、 MS-COCO、 Pascal VOC 等数据集。 2020年,百度数据众包支撑清华大学发布全球首个十亿像素级别视频数据集 PANDA,旨在促进以人类行为为中心的大范围、长程、多目标视觉分析。 2021 年,知乎联合清华开放了基于知乎的大规模富文本查询和推荐数据集 “ ZhihuRec” ,包含了知乎上的 1 亿个行为数据,是国内用于个性化推荐 的最大的实际交互数据集,联合北京智源人工智能研究院开放了接近 200万用户和 1000万邀请数据的 Link prediction大型数据集。 ( 三 ) 算力总规模持续高速增长 在数字 经济新时代,算力 已成为推动数字 经济 发展的新生产力,是 支撑数字经济 持续 向纵深发展 的 新引擎。 随着 5G、 人工智能、云计算 、 大数据等新一代信息技术的蓬勃发展 , 算力 规模 、算力能力等需求呈现指数级增长 。我国加快推动 算力 战略 布局, 持续 优化算力发展环境, 充分释放 应用需求潜力 。 1 智能算力规模保持迅猛发展态势 2020 年算力规模 达到 135EFlops,全球占比约为 31%,在全球疫情背景下,我国算力依然同比保持 55%的高位增长,高于全球增速约16 个百分点。我国算力结构随着应用需求的变化不断演化,其中,基础算力占算力的比重由 2016 年的 95%下降至 2020 年的 57%,智能13 算力占算力的比重则由 2016 年的 3%提升至 2020 年 41%,智能算力成为算力快速增长的驱动力 3。 来源:中国算力发展指数白皮书 2021 图 4 我国算力 发展规模 2 人工智能芯片 算力性能大幅提升 百度、华为、阿里、寒武纪等头部 科技 企业依托自身技术及业务优势 重点 布局相关芯片研发。 在 训练芯片方面, 华为 、 寒武纪 、百度等企业相继发布 云端训练芯片,打破国外企业长期垄断局面 。华为 昇腾 910 芯片成为全球单芯片计算密度最大的芯片之一 ,整数精度( INT8) 算力 高达 640 TOPS。 寒武纪 发布 思元 370,创新性 采用 chiplet(芯粒) 技术 , 功耗仅为 150W, 整数精度 ( INT8) 算力 高达 256 TOPS,是二代 思元芯片 270 算力的 2 倍 。 百度昆仑芯 2 芯片采用 7nm 制程,搭载自研的第二代 XPU 架构,整数精度 (INT8)算力达到 256 TOPS,而最大功耗仅为 120W。 在推理芯片方面 , 寒武纪 、百度 、 华为、 比 3 来源:中国信通院 2021 年中国算力发展指数白皮书 040801201602016年 2017年 2018年 2019年 2020年14 特大陆(算能) 、 燧原科技等企业布局较早 , 性能逐步 达到行业中高端水平。 华为 昇 腾 310 采用 华为自研的达芬奇结构, 在 功耗仅为 8W的条件下 , 整数精度( INT8)算力高达 22TOPS。 来源:根据公开资料整理 图 5 AI 云端芯片算力 发展 趋势 我国 AI计算芯片 呈现多 路径 发展趋势 。 AI芯片作为算力的 基础 ,GPU、 FPGA、 ASIC 等是 当前 AI 芯片 行业主流。 目前 GPU 仍是 智算中心的 首选, 据 IDC 预测 2020 年我国的 GPU 服务器依旧 占据 95%左右的市场份额 。英伟达 凭借 GPU 在 数据中心的广泛应用维持着稳固的霸主地位,与此同时国内 也涌现一批初创企业打破英伟达 垄断 局面 , 天数智芯发布 云端 7nm 制程 BI 芯片 , 单芯片计算能力 ( FP16)高达 每秒 147 万亿次。我国 企业在 ASIC 领域 具有较强的国际竞争力 ,华为、 百度、 寒武纪、地平线等企业 相继发布 并 量产性能优异 的 AI芯片 , 在全球 AI 芯片市场占据重要 地位。 我国企业在 AI 服务器市场 占据较大份额 。 AI 服务器通常 由 CPU搭载 GPU、 FPGA、 ASIC 等加速芯片 组成 , 以 满足高吞吐量互联的需求, 是 人工智能基础设施的 核心 。 浪潮 、华为、 联想 等国内 企业正15 逐步成为 全球 AI 服务器 市场的中坚力量, 据 IDC 数据显示 , 2020 年上半年全球 AI 服务器市场规模达 55.9 亿美元 , 其中浪潮以 16.4%的市占率位居全球第一,华为( 6%)和联想( 5.7%)位列第四第五。未来 , AI 服务器 还将会 持续 高速增长,预计 2024 年 全球市场规模将达 251 亿美元 。 来源: IDC 2020H1全球人工智能市场半年度追踪报告 图 6 2020 年 上半年全球 AI 服务器 市场份额 3 智能计算中心布局浪潮快速掀起 各地积极推动 智能计算中心 建设。 自 2020 年发改委首次明确将智能计算中心纳入算力基础设施范畴后,各地政府、企业协同推动智能计算中心落地。截至 目前 , 据公开资料整理, 我国已建的人工智能算力中心有 7 个,分布于深圳、横琴、武汉、南京 、 西安 、许昌 和晋城 ;在建和计划建设的中心有 10 个,分布于上海、成都、大连 、 沈阳 和佛山 等地。以武汉智能计算中心为例,武汉人工智能计算中心投运后可支持人工智能重大应用的模型训练及推理,其核心围绕数字设浪潮 , 16.40%戴尔 , 14.70%HPE, 10.70%华为 , 6.00%联想 , 5.70%IBM, 4.80%富士通 , 3.40%思科 , 3.40%其他 , 34.80%16 计、智能制造、智慧城市、基因测序四大应用场景,可广泛服务于自动驾驶、智慧城市、智慧医疗、智能交通等多个领域。 来源:根据公开资料整理 图 7 各地建设布局智能计算中心情况 智能算力供给目前以延展、改造模式为主,智能计算中心建设则以新建模式为主。 延展建设模式分为传统云数据中心的延展和超算中心的延展两种模式。传统云数据中心的延展是指通过部署云侧人工智能服务器,以云计算的方式提供人工智能服务;超算中心的延展是指以部分超算中心基于强大的计算资源,通过人工智能平台对外提供人工智能服务。改造模式是指对传统数据中心进行硬件、软件和网络改造,使之可对外供给智能算力,如互联网公司的数据中心个别模块搭载以“ CPU+AI 芯片”异构架构为主体的训 练和推理服务器,配置主流深度学习开发框架完成模型训练和部署服务。新建模式是以 AI 的视角去构建计算中心的整体架构,如当前以华为、浪潮等 AI 硬件巨头为代表在各地持续推出智能计算中心,专注于智能算力供给。 17 ( 四 ) AI 开源开放平台逐步壮大 近年来,我国深度学习算法框架、 AI 应用开放平台等开源开放平台不断取得突破,涌现出一批以百度飞桨等为代表的自主研发的产业级深度学习平台,同时,在语音、视觉等基础技术、开放计算及垂直领域的 AI 开放平台建设不断推进, 以华为盘古 NLP 大模型 、百度产业级 知识增强大模型“文心” 等为代表的 国产化超大规模预训练模型飞速发展, 开源开放平台 生态体系逐步壮大 。 1 算法框架加快创新突破 AI 算法框架是人工智能基础设施的底层操作系统,在整个 AI 开发环境中, AI 算法框架对上层应用提供研发环境和落地的标准环境,对下层硬件设备进行资源的调度,屏蔽掉硬件之间的差别。 AI 框架把复杂的数学表达,转换成计算机可识别的计算图,大大的减少了开发者的工作量,降低了从事 AI 开发的技术门槛,让 AI 技术从实验室中的高精尖 “产品 ”逐步走入市场,实现了产业化落地。 近年来,我国深度学习算法框架在创新发展中 持续 取得突破。 涌现出 百度飞 桨 ( PaddlePaddle)、旷视天元( MegEngine)、华为MindSpore、计图( Jittor)等深度学习框架,以及小米 MACE、阿里MNN、腾讯 NCNN、 OPEN AI LAB(开放智能) Tengine 等一批推理引擎工具开源,推动开源算法框架加快创新。如百度飞桨,当前支持400 个产业级开源算法模型,并发布 13 个 PP 系列模型;累计开发者406 万,服务企业 15.7 万家,基于飞桨开源深度学习平台产生了 47.618 万个模型 ,根据 IDC 报告数 据 , 在中国市场已经达到深度学习平台市场综合份额第一 。整体 看 , 目前国际主流开源基础算法框架仍由美国互联网巨头主导,呈现 TensorFlow 与 Pytorch 双寡头并驱态势 , 我国深度学习算法框架与 上述 国际主流开源算法框架差距正在 不断 缩小 ,国产 AI 算法框架生态正在构建 。 表 4 全球主要深度学习开发框架情况 名称 国家 机构 关注度 活跃度 贡献人数 TENSORFLOW 美 谷歌 161k 121320+ 3028 PYTORCH 美 Facebook 52.2k 41820+ 2056 飞桨 中 百度 17k 32650+ 502 天元 中 旷视科技 4.1k 2028 20 计图 中 清华大学 2.3k 1220 28 昇 思 中 华为 2.6k 34019 230 ONEFLOW 中 一流科技 2.8k 7283 89 来源:中国信息通信研究院 2 平台服务能力持续增强 不完全统计,我国 开源开放平台超过 40 个,语音、视觉、自然语言处理、知识图谱、计算等 AI 开放服务能力进一步增强, 初步具备了加速我国人工智能产业创新发展的能力。 基础技术服务平台方面,如百度、阿里、滴滴、腾讯、网易、京东等综合性 AI 能力开放平台,云从、旷视、美图、萤石、虹软等视觉图像识别 AI 能力开放平台,科大讯飞、依图、小米小爱、搜狗、学而思、有道等语音识别 AI 能力开放平台,其中百度 AI 开放平台已提供超过 1400 项开放能力。 开放计算服务平台方面 ,如阿里云、华为云、百度云、京东云、金山云、19 腾讯云等 AI 云计算服务开放能力平台。 垂直领域开源开放平台方面,Apollo 自动驾驶开放平台、阿里城市大脑开放平台、腾讯智能医疗开放平台等, 其中如百度 Apollo 平台已经汇聚了全球 210 家生态合作伙伴,全球 有 135 个国家超过 80000 名开发者使用 Apollo 开源代码,开源代码数量超过 70 万, Apollo 自动驾驶平台已成为全球最强大、最开放、最活跃的自动驾驶平台 。 AI 应用开放平台加速产业生态建设。 如已组织筹建国内首家开源基金会(开放原子开源基金会),华为 OpenHarmony、腾讯 Tiny OS、阿里巴巴 Ali OS 等 10 个项目已捐赠给基金会进行孵化,变 “一家所有 ”为 “开源共有 ”,吸引产业链上下游共建生态。新一代人工智能产业技术创新战略联盟组织产学研各方力量合作构建 “OpenI 启智开放平台 ”,汇集开源软件、开 源硬件和开放数据,旨在促进人工智能领域的开源开放协同创新,打通 AI 技术链、创新链、生态链等产业链各环节资源,推动人工智能在社会经济各领域广泛应用,加速产业生态建设。 3 多模态大模型探索活跃 预训练模型类比于算法层的基础设施,通过构建能够同时解决语音、视觉、自然语言处理等领域多种问题的通用模型装置,使得千行百业使用人工智能算法时,可直接调用通用模型接口,使用少量数据进行微调,即可解决特定领域的应用任务,是人工智能算法实现规模化应用复制的基础装置。 2020 年 以来 ,谷歌、微软、英伟达、智源人工智能研究院、阿里、 华为、百度、浪潮等国内外科技巨头纷纷展开大规模研究和探索,详见表 5。 当前, 超大规模预训练模型在内容20 创意生成、语言 /风格转换、对话等领域的落地进展较快。随着未来模型性能的不断提升及其平台的不断完善,大模型或将成为下一代AI 基础平台,并赋能各行各业。 表 5 全球 2020-2021 年超大规模预训练模型及参数 企业 发布时间 模型名称 模型参数 OpenAI 2020 年 6 月 GPT-3 1750 亿 Google 2021 年 1 月 Switch Transformer 1.6 万亿 华为 2021 年 4 月 盘古 NLP 大模型 千亿参数 40TB 训练数据 全球最大千亿参数中文语言训练模型 北京智源人工智能研究院 2021 年 6 月 悟道 2.0 1.75 万亿 成为全球最大的预训练模型 浪潮 2021 年 9 月 源 1.0 2457 亿 全球最大规模 AI 巨量模型 英伟达 &微软 2021年 10月 MT-NLG 5300 亿 史上最大和最强大的解码语言模型 阿里巴巴 2021年 11 月 M6 10 万亿 全球最大 AI 预训练模型 百度 &鹏城实验室 2021年 11 月 文心 2600 亿 全球首个知识增强千亿大模型 来源:根据公开资料整理 我国 超大规模预训练模型进展迅速。 一是头部企业自研大模型 体量 达千亿级参数规模 。 如 华为 于 2021 年 4 月发布的盘古系列超大规模预训练模型,包括 30 亿参数的全球最大视觉( CV)预训练模型,以及与循环智能、鹏城实验室联合开发的千亿参数、 40TB 训练数据的全球最大中文语言( NLP)预训练模型,开启工业化 AI 开发新模式。 北京智源 人工智能研究院发布的超大规模智能模型 “悟道 2.0”,模型参数达到 1.75 万亿,超过谷歌 Switch Transformer 模型成为全球最大的预训练模型。浪潮于 9 月发布全球最大规模 AI 巨量模型 “源1.0”大模型,实现了高达 50.84%的平均误判率。百度文心大模型成为全球 首个 知识增强千亿大模型,阿里巴巴 M6 大模型以 10 万级参数21 量成为当前全球最大 AI 预训练模型。 二是效率不断提升,商业化场景日益丰富。 过去 10 年中,用于人工智能训练模型的计算资源激增,AI 训练的计算复杂度每年增长 10 倍。阿里 M6 大模型与 OpenAI 的GPT-3 在同等参数规模下相比,其能耗仅为 GPT-3 的 1%4,且效率提升近 11 倍。作为国内首个商业化落地的多模态大模型, M6 已在超40 个场景中应用,日调用量上 亿。 4 数据 来源 : 22 三、人工智能 基础设施 赋能 行业 发展 典型 案例 依托人工智能 智能计算中心 、 智慧大脑、 AI 应用开放平台等人工智能基础设施赋能,人工智能逐步向制造、 交通、医疗、 能源 、智慧城市等领域 融合 渗透, “智能”新技术、新模式、新业态不断涌现,辐射溢出效应持续增强,成为促进传统行业转型升级的主要动力 。 (一) 武汉智能计算中心加速遥感测绘产业创新 随着专业化数据的爆发式增长, 传统处理 方式已 难以满足 用户需求,人工智能与专业服务结合 “必不可少 ”,智能计算中心通过强大的算力,创建高效的数据平台,整合适当的决策,帮助科研机构构建性能优良的专业人工智能框架,实现对海量数据的提取、精细分析。 目前遥感测图任务大多依赖人工解译,急需结合人工智能来解决这项难题。但由于遥感图像大都具有大面幅、多通道的特征,对整图裁剪易导致空间上下文丢失,产生 “分块效应 ”,遥感影像处理的深度学习技术,又需要大规模的遥感影像样本库来支持 , 遥感影像解译比通用图像识别问题更为复杂 。 因此 , 以算力强大的数据中心为基础,构建具备行业特征的人工智能计算框架是产业界的迫切需求。武汉大学遥感学院 利用智能计算中心的强大算力,与 华为 协同打造全球首个遥感特性的深度学习框架 LuojiaNet 和样本库 LuojiaSet,针对遥感图像快速进行整图切分,实现了整图特征不丢失的效果。 智能计算中心强大的计算能力支持超大分辨率图片处理及超大图像输入切分到多机多卡并行运行,解决图像的切分图片的边界计算23 问题。遥感影像专用框架 LuojiaNet 就是基于智能计算中心构建,可以处理 30K*30K 超大分辨率,最大支持 256 通道波普的遥感影像,抽象遥感知识图谱等领域特性,为国内遥感科研创新和产业化提供专用框架,加速产业发展。 ( 二)百度大脑 构建行业数字化转型技术大底座 百度大脑是百度人工智能多年技术积累和产业实践的集大成,已开放近 1400 项人工智能能力,日调用量突破万亿次。以百度大脑为基础的 “AI 工具箱 ”包含了飞桨深度学习平台、昆仑芯片,以及语音、视觉、知识图谱、自然语言处理等核心 AI 技术和平台, 通过百度智能云可以把百度人工智能的各项技术和能力都放到平台上,各行各业根据需求选择就可以像用水和电一样方便地使用到最领先的人工智能技术和能力, 已经成为助力各行各业的新型基础设施,为社会和产业的智能化转型提供了技术 “大底座 ”。 例如在福建泉州 ,百度参与打造的“水务大脑”智能化升级城市水务流程,让水务运行更高效。比如,在污水处理环节,只需 1 个 App 加 2 名工作人员,就可以管理78 个污水处理站,大幅提升管理效率。在新疆,百度联合国网电力建设“ AI 中台”,为新疆的电力外送提供有力支撑,也降低了巡检人员在条件恶劣环境中的巡检风险。在旅游名城丽江,百度建设的“城市大脑”为社会治理、文化旅游、生态环保等全面赋能,让当地环境更整洁,安全更有保障,居民游客相处更和睦。当前最新百度大脑具备技术自主创新和绿色发展两个显著特点。 24 技术自主创新方面,百度发布 “ 文心 ” 系列 产业级知识增强大模型。 作为当前人工智能发展的重要方向,预训练大模型已成为 AI 领域的技术新高地,用海量的通识知识训练大模型,提升其效率和可解释性。 2021 年 12 月,
展开阅读全文