2019百度大脑AI技术成果分析报告.docx

返回 相关 举报
2019百度大脑AI技术成果分析报告.docx_第1页
第1页 / 共47页
2019百度大脑AI技术成果分析报告.docx_第2页
第2页 / 共47页
2019百度大脑AI技术成果分析报告.docx_第3页
第3页 / 共47页
2019百度大脑AI技术成果分析报告.docx_第4页
第4页 / 共47页
2019百度大脑AI技术成果分析报告.docx_第5页
第5页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2019百度大脑 AI技术成果分析报告目录 引言 . 1 一、百度大脑进化到 5.0 . 2 二、基础层 . 3 2.1 算法 . 3 2.2 算力 . 5 2.3 数据 . 10 三、感知层 . 11 3.1 语音 . 11 3.2 视觉 . 13 3.3 增强现实 /虚拟现实 . 17 四、认知层 . 19 4.1 知识图谱 . 20 4.2 自然语言处理 . 22 五、平台层 . 27 5.1 飞桨( PaddlePaddle)深度学习平台 . 28 5.2 UNIT 智能对话训练与服务平台 . 32 5.3 开放数据集 . 33 六、 AI 安全 . 35 结语与展望 . 40 引言 回顾过去的一年,科技与商业发展的一个关键词就是 “ 人工智能 ” 。在近一年的时间 里,百度科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多 方面取得了令人瞩目的技术成果,还将这些技术成果与行业相结合,成功应用于众多产品 之中,取得了丰硕的人工智能应用成果。 2019 年 2 月,世界知识产权组织( World Intellectual Property Organization,简称 WIPO) 发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。报告显示,百度在深 度学习领域的 专利申请量位居全球第二,超越 Alphabet、微软、 IBM 等企业和国外学术机 构,在全球企业中居于首位。 过去的一年,百度基础技术体系、智能云事业群组和 AI 技术平台体系进行了重大组织机构调整,三个体系统一向集团 CTO 汇报,这为技术中台建设和人工智能技术落地提供了良好的组织保障。 本报告总结了百度大脑在 2018-2019 年度取得的部分技术成果:第一章主要概述百度大脑 5.0,第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。 面向未来,百度将继续打造领先的 AI 技术能力,构建更加繁荣的人工智能生态系统, 助力各行各业进入智能化的工业大生产阶段,在智能时代创造更广泛的社会经济价值。 一、百度大脑进化到 5.0 百度大脑是百度 AI 集大成者。百度大脑自 2010 年起开始积累基础能力,后逐步完善。 2016 年,百度大脑 1.0 完成了部分基础能力和核心技术对外开放; 2017 年, 2.0 版形成了较为完整的技术体系,开放 60 多项 AI 能力; 2018 年, 3.0 版在 “ 多模态深度语义理解 ” 上取得重大突破,同时开放 110 多项核 心 AI 技术能力; 2019 年,百度大脑升级为 5.0,核心技术再获重大突破,实现了 AI 算法、计算架构与应用场景的创新融合,成为软硬件一体的 AI 大生产平台。 如图 1 所示,百度大脑如今已形成了包括基础层、感知层、认知层、平台层以及 AI 安全五大核心架构在内的技术布局。同时,安全一直都贯穿 AI 技术研发的始终,已经融合在百度大脑的所有模块中。基于数据、算法和算力强大的基础能力支持,百度大脑拥有包括语音、视觉、增强现实( AR) /虚拟现实( VR) 以及语言与知识等技术能力,并通过 AI 平台对外开放 ,形成以百度大脑为核心的技术和产业生态。 多年来,百度大脑支持百度几乎所有业务,并面向行业和社会全方位开放,助力合作伙伴和开发者,加速 AI 技术落地应用,赋能各行各业转型升级,其核心技术及开放平台荣获 2018 年度中国电子学会科技进步一等奖。 图 1 百度大脑 二、基础层 2.1 算法 百度持续在算法和理论方面深入研究,在语音、图像、语言与知识等多个领域取得重大突破。 在语音识别方面,百度将注意力机制的建模技术用于在线语音识别,提出了流式多层 截断注意力模型 SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在 2019 年初实现了基于该技术的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用 户体验,相对准确率提升 15% 至 20% 。 该算法使用 CTC ( Connectionist Temporal Classification)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当 前建模单元的注意力建模。通过该方法把原来的全局整句 Attention 建模,变成了局部语音小段的 Attention 建模。同时,为了克服 CTC 模型中不可避免的插入删除错误对系统造成的影响 ,该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择。最终 ,这种创新建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量 、解码速度等在线资源耗费和传统 CTC 模型持平。 图 2 流式多层截断注意力模型 SMLTA 在个性化语音合成方面,百度还提出了语音风格和音色迁移的个性化韵律迁移语音合成技术 Meitron。该技术在训练时,交叉组合不同声音的训练样本,实现了声音的音色、风格和情感的解耦。语音的个性化信息、风格信息和情感信息等沉淀到全局声音的基 ( basis)空间中,并将声音共有信息沉淀到一个统一的声学模型中。在做语音合成的时候, 用户仅仅输入少量目标语音作为指导,在全局声音基空间中进行注意力选择,选择出和当 前用户个性化声音更加匹配的基。之后可以根据这个基,并结合训练好的共有信息声学模 型,生成与目标语音的音色和风格高度相似的任意语音。依靠 Meitron 的解耦和组合机制, 我们 能够在不同音色、风格和情感之间进行风格转化和迁移,仅仅使用少量用户语音,就 可以实现多种音色、情感和风格的转换。该技术成果已经落地百度地图产品,地图用户只 需要提供约 20 句话的目标语音,就可以合成与目标语音非常相似的个性化声音,用于地图任意导航场景的语音播报和任意名胜景点的语音播报等。 图 3 Meitron 个性化韵律迁移合成技术 在计算机视觉领域,百度研发了基于图文关系的大规模图像分类弱监督算法,提出了Ubiquitous Reweighting Network( URNet),给予每张图片训练过程中不同的权重,与原始的分类模型相比, Top5 提升了 8 个点左右。该方法在最大的图像分类数据比赛 Webvision 比赛中获得冠军。在图像超分辨率领域,百度提出了基于级联回归的 CDSR 模型,用于图 像的超分增强;还提出了自适应注意力多帧融合技术,用于视频的超分增强。 2019 年 5 月, 在计算机视觉 Low-level Vision 领域中影响力最大的竞赛 NTIRE 上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。在医学图像领域,百度提出全新的基于深度学习的病理 切片肿瘤检测算法 1,在公共数据集 Camelyon16 大赛上的肿瘤定位 FROC 分数高达 0.8096, 超过专业病理医生水平以及之前由哈佛、 MIT 等保持的大赛最佳成绩。研究成果发表于 2018 深度学习医学图像大会。 在自然语言处理领域,百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型, 能够高精度地从语言数据中捕获主题信息。同时,通过联合恢复知识图嵌入空间中的头实 体、谓词和尾实体表示,问答系统的回答准确性得到进一步提高。这项工作发表在 IEEE Big Data 20182, SDM 20193, WSDM 20194和 NAACL 20195。 很多高维的特征空间,如词嵌入、图像的特征向量等,都有非常有趣的几何结构。另一方面,多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间的特性,提出的全新 Hubless Nearest Neighbor ( HNN) Search 算法,能够大幅提高在标准数据集上的单词翻译准确率。以词嵌入空间为例, HNN 能够只用极少量标注数据,实现不同语种间单词的翻译。 HNN 此项基础研究能够帮助提升机器翻译系统在低频词、术语、小语种等情况下的效果。另外, HNN 作为一种新的信息检索方法,对广义上的多特征空间匹配都有指导意义,如零样本图像识别等。这项工作发表在 ACL 20196。 百度提出的 Logician 逻辑家代理可以从开放领域自然语言句子中提取事实,实现了更深层次的语言理解,其性能明显优于现有的开放信息提取系统。百度还建立了一个 Orator 演说家代理,可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为双重任务,百度在自然语言和知识事实之间搭建了双 向的桥梁,使得系统性能得到进一步的提升。这项工作发表在 WSDM 20187和 EMNLP 20188上。 2.2 算力 人工智能时代,算法能力快速提升,同时,算法对算力的要求也越来越高。为了应对 算力、效率和多元化场景等核心挑战,百度提出了端到端的 AI 计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,满足 AI 训练方面 IO 密集、计算密集、通信密集的需求 ,以及 AI 推理方面大吞吐和低延迟的需求。与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产 生更大的计算力。在系统层兼 顾端云,软硬一体,实现了对算力资源的灵活调度。 2.2.1 芯片 云端通用 AI 处理器 百度昆仑 硬件的进展是这次 AI 发展的基础推动力量之一。云端的 AI 推理与训练芯片,成为了各大互联网公司、传统芯片厂商以及创业公司聚焦的战场。业界正在尝试使用特定领域架构( DSA)解决算力及功耗问题。 2018 年开发者大会,百度发布了国内首款云端通用 AI 处理器 “ 百度昆仑 ” 。它基于 XPU 架构,采用 14nm 三星工艺,在 150 瓦功耗限制下,运算性能高达 260Tops,能解决数 据中心对芯片的高性能、低成本、高灵活性三大诉求。百度昆仑芯片具备完整的 toolchains, 并开放给开发者,与飞桨 ( PaddlePaddle) 实现了深度结合,打造全栈国产技术生态。功 能上同时支持视觉、语音、自然语言处理、推荐、无人车等场景,在众多业界深度学习模 型上均拥有很好的性能和效率表现;即将量产的芯片在多个模型上实测性能均超过业界主 流芯片。 远场语音交互芯片 百度鸿鹄 远场语音交互芯片 “ 百度鸿鹄 ” 变革了传统芯片设计方法,体现了软件定义芯片的全新设计思路。百度鸿鹄拥 有契合 AI 算法需求的核内内存结构设计、分级的内存加载策略、依据 AI 算法调教的 cache 设计和灵活的双核通信机制,最终实现了深度学习计算过程和数据加载的高度并行,一颗芯片即同时满足了远场阵列信号实时处理和超低误报高精度唤醒实时监听的需求。 百度鸿鹄可以支持多达六路的麦克阵列语音信号输入;支持百度领先的麦克阵列信号处理技术,即双声道立体声 AEC 消除、声源定位、波束生成等;支持百度领先的 Deep Peak 和 Deep CNN 语音唤醒技术,实现复杂内外噪场景下的高精准唤醒以及低于一天一次的误报率。同时,该芯片还支持百度创新的双麦克模型波束算法,实现唤醒后 360 度无死角识 别,首次在中文语音识别上实现双麦克阵列的识别率超越传统 6 麦克系统,实现了行业领先的芯片模型波束技术突破。 2.2.2 AI 计算平台 百度推出的 AI 计算平台,提供了一个端到端的解决方案来应对人工智能计算的挑战。 AI 计算平台由超级计算模块 X-Man、高性能存储系统 Fast-F、大型分布式 AI 计算训练平台 KongMing 组成。 X-Man 是百度研发的人工智能超级计算模块,是针对训练场景定制优化的 AI 计算产品。百度在 18 年年底正式发布 X-Man 3.0, 单机具备 2000TFlops 算力,并具备灵活的模块化设计功能,能够支持不同的互连架构以及不同的 AI 加速芯片。 X-Man 系列产品创造了 6 项业界第一,相关专利荣获了 2018 年中国国家专利优秀奖。百度与 Faceboook、微软等联合创立了 OAI( Open Accelerator Infrastructure) 开放 AI 加速基础架构项目,旨在促进 AI 芯片多元化生态格 局的健康持续发展。百度在主导 OAI 标准定义的同时,也以实际行动推动 OAI 标准落地,在 19 年 9 月发布了业界首款支持 OAI 标准和液冷散热的超级 AI 计算机 X-Man 4.0。 图 4 百度人工智能超级计算模块 X-Man 4.0 Fast-F 是一种高性能并行文件系统解决方案,硬件上基于 Open Channel SSD 实现 KV 接口,合并 FW 和存储引擎层,软件栈实现全无锁设计,解决了 AI 场景下分布式训练集群中的海量小文件 I/O 难题。 KongMing 是人工智能训练集群,具备自研的高速通信库,充分利用 RDMA 和 NVLink 等特性,并且引入了全网络架构拓扑感知调度,能够以最佳的计算和通信效率将作业映射到多样化的 AI 加速芯片和系统上。 KongMing 与 X-Man 及 Fast-F 紧密结合,可支持大规模分布式训练,将训练时间从周级别缩短到天级别。 百度 AI 计算平台已经广泛应用在各行各业的人工智能解决方案中。同时为支撑平台更好地服务业界用户,百度超大规模资源管理系统提供了几十万台服务器托管服务,常驻容器数目达到 500 万,并提供数十万并发计算能力,为大数据处理、模型训练提供支持。 2.2.3 5G 边缘计算 5G 会在许多垂直领域显著提升人工智能服务的能力。近年来,百度一直积极布局边缘计算和 5G 领域。 2018 年,百度成功打造出面向互联网的边缘计算统一平台 Over The Edge ( OTE),并先后与联通、 Intel 等知名企业合作加速 5G 建设。 OTE 平台将百度人工智能与 5G 基础设施连接起来,可以使百度人工智能融入万物互联的世界,接近用户,服务用户, 成为一个新的生态系统。 OTE 平台的架构如图 5 所示,包括资源层的管理, IaaS ( Infrastructure as a Service) 资源的虚拟化,实现边缘服务管理的 PaaS( Platform as a Service), 以及基于 IaaS 和 PaaS 的各种边缘解决方案,可以在边缘提供全面的计算加速支持。 OTE Stack 是面向 5G 和 AI 的边缘计算平台。通过底层的虚拟化,可以屏蔽边缘硬件的异构特性,对外输出标准的算力资源;通过 OTE 层次化的集群管理和全局的智能调度,将 5G 时代大量的边缘节点有效调度起来,从而在边缘为 AI 提供低延迟、高可靠和成本最优的算力支持。同时,通过 OTE Stack 多层集群的统一调度,将设备、移动边缘、云边缘、云中心协同起来,为 Device-Edge-Cloud 的协同计算提供了可能。
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642