资源描述
ICS 35.080 L 77 AIOSS 中国人工智能开源软件发展联盟标准 AIOSS 01 2018 人工智能 深度学习算法评估规范 Artificial intelligence Assessment specification for deep learning algorithms 2018 - 07 - 01发布 2018 - 07 - 01实施 AIOSS-01-2018 I 目 次 前言 . III 引言 . IV 1 范围 . 1 2 术语和定义 . 1 3 评估指标体系 . 2 3.1 评估指标体系表 . 2 3.2 算法功能实现的正确性 . 4 3.3 代码实现的正确性 . 4 3.4 目标函数的影响 . 4 3.5 训练数据集的影响 . 4 3.6 对抗性样本的影响 . 4 3.7 软硬件平台依赖的影响 . 5 3.8 环境数据的影响 . 5 4 评估流程 . 5 4.1 概述 . 5 4.2 确定可靠性目标 . 6 4.3 选择评估指标 . 7 4.4 评估准则 . 7 4.5 各阶段评估 . 8 4.6 评估结论 . 8 5 需求阶段的评估 . 8 5.1 概述 . 8 5.2 前提条件 . 8 5.3 输入 . 8 5.4 关键活动 . 9 5.5 输出 . 9 6 设计阶段的评估 . 9 6.1 概述 . 9 6.2 前提条件 . 9 6.3 输入 . 9 6.4 关键活动 . 9 6.5 输出 . 10 7 实现阶段的评估 . 10 7.1 概述 . 10 AIOSS-01-2018 II 7.2 前提条件 . 10 7.3 输入 . 10 7.4 关键活动 . 10 7.5 输出 . 11 8 运行阶段的评估 . 11 8.1 概述 . 11 8.2 前提条件 . 11 8.3 输入 . 11 8.4 关键活动 . 11 8.5 输出 . 12 附录 A(规范性附录) 深度学习算法可靠性评估指标选取规则 . 13 附录 B(资料性附录) 深度学习算法可靠性评估实施案例 . 15 参考文献 . 25 AIOSS-01-2018 III 前 言 本标准按照 GB/T 1.1 2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由中国人工智能开源软件发展联盟提出。 本标准由中国电子技术标准化研究院归口。 本标准负责起草单位:中国电子技术标准化研究院、中国科学院软件研究所、上海计算机软件技术开发中心、北京航空航天大学、华东师范大学、中国科学院计算技术研究所、军事科学院国防科技创新研究院、国防科技大学、卡索 (北京 )科技有限公司、北京百度网讯科技有限公司、浙江蚂蚁小微金融服务集 团有限公司、深圳前海微众银行股份有限公司、顺丰科技有限公司、深圳市优必选科技有限公司、北京京东尚科信息技术有限公司、深圳赛西信息技术有限公司、数据地平线(广州)科技有限公司。 本标准主要起草人:薛云志、孟令中、崔静、张明英、张璨、周平、武斌、郭崎、刘畅、吴涛、李海峰、肖良、张超、于泉杰、宋俊典、戴炳荣、王长波、孙仕亮、陈美、李刚、潘欣、程思、刘志欣、刘新凯、王太峰、巢林林、袁杰、曹安然、尹思遥。 AIOSS-01-2018 IV 引 言 人工智能的迅速发展正在深刻改变人类社会生活、改变世界,其技术和应用正经历快速发展的阶段。根据 GB/T 5271.28-2001信息技术 词汇 第 28部分 :人工智能 基本概念与专家系统中的定义,“人工智能是表现出与人类智能(如推理和学习)相关的各种功能单元的能力。”机器学习是人工智能的核心技术之一,是使计算机具有智能的重要途径,其应用遍及人工智能的各个领域。深度学习是机器学习的一个子集,发源于人工神经网络的研究,通常也称为深度神经网络,是一种基于数据进行表征学习的方法。目前,深度学习算法在金融、安防、医疗等领域得到广泛应用,国务院发布的新一代人工智能发展规划中指出,人工智能进入新的发展阶段,“呈现 出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。” 然而,业界缺乏对深度学习算法可靠性、可移植性、效率等的系统性评估方法,一定程度上影响着深度学习的广泛应用和技术发展。本标准此版本仅针对人工智能深度学习算法的可靠性评估进行要求。随着研究的深入及应用的发展,后续将不断进行持续改进,逐渐扩展到深度学习算法可移植性、效率等方面的评估。 中国电子技术标准化研究院作为国际标准化组织 ISO/IEC JTC1/SC42(人工智能分技术委员会)的国内技术归口单位,在本标准研制过程中,充分发挥了组织协调和技术方向 把关作用。标准编写组聚集了国内人工智能深度学习领域的技术专家,开展了多种形式的专题研讨和征求意见活动,在保证标准科学性、合理性和可行性的同时,也确保了标准研制过程的公开性和透明性。 本标准的研制工作,得到了中国人工智能开源软件发展联盟专家委员会的指导和支持,专家委员会主任委员、中国科学院院士、华东师范大学计算机科学与软件工程学院院长何积丰院士和各位专家对标准内容和文稿进行了深入严谨的讨论,给出了许多切实可行的意见,对标准质量提升和标准内容完善起到关键性作用。 使用帮助信息:任何单位和个人在使用本标准的过程中 ,若存在疑问,或有对本标准的改进建议和意见,请与中国电子技术标准化研究院(中国人工智能开源软件发展联盟 秘书处)联系。 电话: 010-64102848;电子邮件: aiosscesi 通信地址:北京东城区安定门东大街 1号( 100007) 版权声明:本标准版权受法律保护,转载、摘编或利用其它方式使用本标准内容的,应注明出处。违反上述声明者,本联盟将追究其相关法律责任。 为了推动本标准的持续改进,使其内容更加贴近用户组织的实际需求,欢迎社会各方力量参加本标准的持续改进,本标准的更多信息欢迎关注“中国人工智 能开源软件发展联盟”公众号。 AIOSS-01-2018 1 人工智能 深度学习算法评估规范 1 范围 本标准提出了人工智能深度学习算法的评估指标体系、评估流程,以及需求阶段评估、设计阶段评估、实现阶段评估和运行阶段评估等内容。 本标准适用于指导深度学习算法开发方、用户方以及第三方等相关组织对深度学习算法的可靠性开展评估工作。 2 术语和定义 下列术语和定义适用于本文件。 2.1 可靠性 reliability 在规定的条件下和规定的时间内,深度学习算法正确完成预期功能,且不引起系统失效或异常的能力。 2.2 可靠性评估 reliability assessment 确定现有深度学习算法的可靠性所达到的预期水平的过程。 2.3 算法失效 algorithm failure 算法丧失完成规定功能的能力的事件。 2.4 危险 hazard 深度学习算法发生算法失效,从而导致机器学习系统出现的一个非预期或有害的行为,或者提交给其他与机器学习系统相关联的系统发生错误。 2.5 危险严重性 hazard severity 某种危险可能引起的事故后果的严重程度。 2.6 查准率 precision 对于给定的数据集,预测为正例的样本中真正例样本的比率。 2.7 查全率 recall 对于给定的数据集,预测为真正例的样本占所有实际为正例样本的比率。 2.8 准确率 accuracy 对于给定的数据集,正确分类的样本数占总样本数的比率。 AIOSS-01-2018 2 2.9 响应时间 response time 在给定的软硬件环境下,深度学习算法对给定的数据进行运算并获得结果所需要的时间。 2.10 对抗性样本 adversarial examples 在数据集中通过故意添加细微的干扰所形成输入样本,受干扰之后的输入导致模型以高置信度给出错误的输出。 2.11 置信度 confidence 总体参数值 落在样本统计值某一区内的概率。 3 评估指标体系 3.1 评估指标体系表 基于深度学习算法可靠性的内外部影响考虑,结合用户实际的应用场景,本标准给出了一套深度学习算法的可靠性评估指标体系。本指标体系如图 1所示,包含 7个一级指标和 20个二级指标。在实施评估过程中,应根据可靠性目标选取相应指标。 AIOSS-01-2018 3 算法功能实现的正确性响应时间任务指标代码实现的正确性代码漏洞代码规范性软硬件平台依赖的影响硬件架构差异操作系统差异深度学习框架差异目标函数的影响拟合程度优化目标数量训练数据集的影响数据集污染情况数据集标注质量数据集规模数据集均衡性对抗性样本的影响不指定目标方式生成的样本指定目标方式生成的样本黑盒方式生成的样本白盒方式生成的样本环境数据的影响数据集分布迁移干扰数据野值数据深度学习算法的可靠性指标体系图 1 深度学习算法可靠性评估指标体系 AIOSS-01-2018 4 3.2 算法功能实现的正确性 用于评估深度学习算法实现的功能是否满足要求,应包括但不限于下列内容: a) 任务指标:用户可以根据实际的应用场景选择任务相关的基本指标,用于评估算法完成功能的能力; 示例: 分类任务中的查准率(见 2.6)、查全率(见 2.7)、准确率(见 2.8)等;语音识别任务中的词错误率、句错误率等;目标检测任务中的平均正确率等;算法在使用中错误偏差程度带来的影响等。 b) 响应时间(见 2.9)。 3.3 代码实现的正确性 用于评估代码实现功能的正确性,应包括下列内容: a) 代码规范性:代码的声明定义、版面书写、指针使用、分支控制、跳转控制、运算处理、函数调用、语句使用、循环控制、类型转换、初始化、比较判断和变量使用等是否符合相关标准或规范中的编程要求; b) 代码漏洞:指代码中是否存在漏洞。 示例: 栈 溢出漏洞、堆栈溢出漏洞、整数溢出、数组越界、缓冲区溢出等。 3.4 目标函数的影响 用于评估计算预测结果与真实结果之间的误差,应包括下列内容: a) 优化目标数量:包括优化目标不足或过多。优化目标过少容易造成模型的适应性过强,优化目标过多容易造成模型收敛困难; b) 拟合程度:包括过拟合或欠拟合。过拟合是指模型对训练数据过度适应,通常由于模型过度地学习训练数据中的细节和噪声,从而导致模型在训练数据上表现很好,而在测试数据上表现很差,也即模型的泛化性能变差。欠拟合是指模型对训练数据不能很好地拟合,通常由于模型过于简单 造成,需要调整算法使得模型表达能力更强。 3.5 训练数据集的影响 用于评估训练数据集带来的影响,应包括下列内容: a) 数据集均衡性:指数据集包含的各种类别的样本数量一致程度和数据集样本分布的偏差程度; b) 数据集规模:通常用样本数量来衡量,大规模数据集通常具有更好的样本多样性; c) 数据集标注质量:指数据集标注信息是否完备并准确无误; d) 数据集污染情况:指数据集被人为添加的恶意数据的程度。 3.6 对抗性样本的影响 用于评估对抗性样本对深度学习算法的影响,应包括下列内容: a) 白盒方式生成的样本:指目标模型已 知的情况下,利用梯度下降等方式生成对抗性样本; b) 黑盒方式生成的样本:指目标模型未知的情况下,利用一个替代模型进行模型估计,针对替代模型使用白盒方式生成对抗性样本; c) 指定目标生成的样本:指利用已有数据集中的样本,通过指定样本的方式生成对抗性样本; d) 不指定目标生成的样本:指利用已有数据集中的样本,通过不指定样本(或使用全部样本)的方式生成对抗性样本。 AIOSS-01-2018 5 3.7 软硬件平台依赖的影响 用于评估运行深度学习算法的软硬件平台对可靠性的影响,应包括下列内容: a) 深度学习框架差异:指不同的深度学习框架在其 所支持的编程语言、模型设计、接口设计、分布式性能等方面的差异对深度学习算法可靠性的影响; b) 操作系统差异:指操作系统的用户可操作性、设备独立性、可移植性、系统安全性等方面的差异对深度学习算法可靠性的影响; c) 硬件架构差异:指不同的硬件架构及其计算能力、处理精度等方面的差异对深度学习算法可靠性的影响。 3.8 环境数据的影响 用于评估实际运行环境对算法的影响,应包括下列内容: a) 干扰数据:指由于环境的复杂性所产生的非预期的真实数据,可能影响算法的可靠性; b) 数据集分布迁移:算法通常假设训练数据样本和真 实数据样本服从相同分布,但在算法实际使用中,数据集分布可能发生迁移,即真实数据集分布与训练数据集分布之间存在差异性; c) 野值数据:指一些极端的观察值。在一组数据中可能有少数数据与其余的数据差别比较大,也称为异常观察值。 4 评估流程 4.1 概述 深度学习算法的可靠性评估流程如图 2所示。包括确定可靠性目标、选择评估指标、需求阶段的评估、设计阶段的评估、实现阶段的评估、运行阶段的评估及得出评估结论这七个活动。
展开阅读全文