2020中国AI基础数据服务行业研究报告.pptx

返回 相关 举报
2020中国AI基础数据服务行业研究报告.pptx_第1页
第1页 / 共24页
2020中国AI基础数据服务行业研究报告.pptx_第2页
第2页 / 共24页
2020中国AI基础数据服务行业研究报告.pptx_第3页
第3页 / 共24页
2020中国AI基础数据服务行业研究报告.pptx_第4页
第4页 / 共24页
2020中国AI基础数据服务行业研究报告.pptx_第5页
第5页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2020中国AI基础数据服务行业研究报告,摘要,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化, 越来越多的“中小型数据供应商” 在苦恼生存问题,该群体在未来1-2年内将迎来 一阵“倒闭潮”。,4,“品牌数据服务商” 在这1-2年内应该“居安思危”,注重品牌认可度塑造、提高 规模化生产能力、大力发展如预标注、项目进度可视化等精细化运营方式、增加如 语音合成(TTS)数据处理等差异化服务,最终追求的是单位价格的利润最大化。,5,目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地, 解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数 据决定了AI的落地程度。,1,2019年中国AI基础数据服务行业市场规模可达30.9亿元,预计2025年市场规模将突 破100亿元,年化增长率为21.8%。,3,对比中国与世界的发展情形来看,人工智能行业发展前景良好,而作为强关联性的AI基础数据服务行业受其发展红利的影响,未来市场仍有不小的上升空间。,2,中国及全球人工智能发展概览,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务行业壁垒,3,行业发展机遇与挑战,4,人工智能产业发展和产业链结构,实现途径,算 力,传统通用计算(CPU),AI计算架构,AI芯片,CPU+GPUTPUFPGA,智能设备,视觉,类脑,自动驾驶,安防,物联网,支持系统,计算平台,硬件设备,云服务,数据采集 储存设施 网络传输 知识图谱,量子计算,编程语言算法平台AI框架理论研究,应 用 层,基础层技术层,数 据,数据存储,数据处理,数据挖掘,数据采集 数据清洗 信息抽取 数据标注,算 法,机器学习算法,监督式学习 半监督学习 深度学习,非监督学习 强化学习 迁移学习,早期算法 搜索式推理 专家系统 智能代理,计算机视觉,智能语音,自然语言处理,信息理解,机器翻译自然语言生成,文字校对,数据决定了AI落地程度,是商业化过程中重要的一环自从2012年深度学习在图像和语音方面产生重大突破后,人工智能便真正具备了走出实验室步入市场的能力,2016年AlphaGo的胜利再次引爆行业,成功唤起了中国市场的兴趣,时至今日,人工智能的商业化在中国得到了长足发展,在安 防、金融、企服等领域纷纷落地开花,同时也真正意义上衍生出了一套完整的产业链。AI产业链可以分为基础层、技术层 和应用层,基础层按照算力、数据和算法再次划分,对整体上层建筑起到支撑作用;技术层根据算法用途分为计算机视觉、 智能语音、自然语言处理等,是AI最引人注目的环节;应用层则按照不同场景的需求定制开发专属服务,是AI真正赋能行 业的方式。目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大 量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度,而AI基础数据服务行业又鲜有关注,因此本 报告承接艾瑞2019年中国人工智能基础数据服务白皮书,再次挖掘该行业的现状和发展,展示其真实的一面。人工智能产业链结构,人工智能技术实现路径,机器学习是主流,其中监督学习下的深度学习是主要方式人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为以知识工程为代表的符号主义、以 神经网络为代表的连接主义和以仿生机器人为代表的行为主义三个流派,近些年掀起又一轮人工智能热潮的机器学习就属 于连接主义学派。机器学习按照训练方式可分为使用人工标注分类标签训练的监督学习、无分类标签且自动聚类推断的无 监督学习、使用少量人工标注+自动聚类的半监督学习和根据现实情况自动“试错+调整”的强化学习四类,而最著名的深 度学习同样是机器学习的分支,但因为模型结构的不同而与上述训练方式不在一个区分范畴,深度学习在训练方式上均可 与四种方式发生重叠。目前来看AI应用最广泛的计算机视觉和智能语音更依赖于监督学习下的深度学习方式,半监督和无 监督是学术界尝试突破的方向,当下仅在如无人驾驶中急转弯场景训练等特定领域中得以尝试应用,而强化学习被认为是 更接近人类在自然界中学习知识的方式,在最佳路径选择、最优解探寻等方面有所应用,但泛化能力还有待突破。机器学习划分和主要训练路径,训练数据,特征提取,训练模型,输出模型,模型验证,分类标签,新数据,特征提取,预测,分类标签,特征矩阵,特征向量,训练,预测,监督学习,无监督学习,半监督学习,强化学习,深度学习,机器学习主要划分方式,训练数据,深度学习模型,分类标签,输出模型,训练,预测,新数据,深度学习模型,分类标签,监 督 学 习 训 练 路 径,深 度 学 习 训 练 路 径,人工智能对数据资源服务的需求趋势,前瞻性数据集产品 定制服务,稳步增长,需求变化人工智能算法模型基本达到阶段 性成熟,随着AI落地行业的趋势, 更具有前瞻性的数据集产品和高 定制化数据服务需求成为了主流,存量市场结合计算机视觉和语音市场的需 求情况看,AI基础数据服务需求 成为常态,主要需求方稳定,数 据需求量保持稳步增长,增量市场随着AI落地传统行业,以及IoT 设备的普及,人工智能的应用场 景越来越丰富,需求方类型也在 逐年增加,具有广阔的想象空间空间广阔,定制化需求成为主流,数据服务市场步入需求常态化监督学习下的深度学习算法训练十分依赖人工标注数据,2012年-2016年期间人工智能行业不断优化算法增加深度神经网 络层级,利用大量的数据集训练提高算法精准性,ImageNet开源的1400多万张训练图片和1000余种分类在其中起到重要 作用,为了继续提高精准度,保持算法优越性,市场中产生了大量的标注数据需求,这也催生了AI基础数据服务行业的诞 生。时至今日,人工智能从业公司的算法模型经过多年的打磨,基本达到阶段性成熟,随着AI行业商业化发展,更具有前 瞻性的数据集产品和高定制化数据服务需求成为了主流。据了解,目前一个新研发的计算机视觉算法需要上万张到数十万 张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市 的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需 求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新 需求方出现,对于标注数据的需求也是逐步增长。结合市场来看,随着AI商业化发展,AI基础数据服务需求步入常态化, 存量市场具有较为稳定的需求源头,而增量市场随着应用场景的丰富,以及新型算法的诞生,拥有更广阔的想象空间。人工智能对数据资源服务的需求趋势,全球人工智能产业发展情况,全球市场火热依旧,呈现集群式发展,AI落地仍是主旋律2019年全球人工智能行业发展依旧火热,重点围绕北美、欧洲和亚洲三大区域发展,共有5386家活跃企业,27400名高级 研究人员,20座重点发展城市,产生了约374亿美元融资,其中自动驾驶、药物医疗、人脸识别、视频内容和金融反欺诈 是获得融资最多的领域。综合来看,美国仍然是人工智能领域的领头羊,每年不仅向全球输出最前沿的AI应用概念,提供 最接近市场需求的应用场景,同时也吸收着世界各地不断涌入的人才、数据资源和创意灵感。以英国、德国为代表的欧洲 发展区和以中国、日本、新加坡、印度为代表的亚洲发展区整体实力相近,但走出了两条完全不同的路径,虽然欧洲储备 了大量的AI人才,但市场活性不强,对于创新业务的发展并不友好,而亚洲虽然人才储备不充裕,但市场活力十足,对AI,技术充满了期待。,注释:图中超级独角兽指估值100亿美元及以上AI企业,旧金山湾区,达拉斯,蒙特利尔,波士顿,纽约,多伦多,都柏林,伦敦,巴黎,阿姆斯特丹,柏林,斯德哥尔摩,特拉维夫,新加坡,深圳,北京,上海,东,京,悉尼,北美活跃AI企业:2472家AI人才:13458人AI重要政策:8个融资:128亿美元,超级独角兽企业:78家方向:数据库、医疗、时尚 和零售、文本分析、聊天机 器人、自动驾驶、金融风控,洛杉矶,欧洲活跃AI企业:1149家AI人才:5086人AI重要政策:9个融资:46亿美元超级独角兽企业:8家方向:时尚和零售、医疗、 文本分析、广告营销、自动 驾驶、金融风控,亚洲活跃AI企业:1667家AI人才:1850人AI重要政策:13个融资:200亿美元超级独角兽企业:8家方向:智能制造、人脸识别、 教育、自动驾驶、医疗健康 金融风控,2019年全球人工智能发展特征,中国与全球人工智能发展情况对比,AI论文占全部论文的3%,论文数/FWCI引用均数 占全球AI论文28%/FWCI为0.8论文数,人才数/高级人才数博士413名/专家120名博士22000名/专家5400名人才数/高级人才数活跃企业数1189家5386家活跃企业数融资总额约166亿美元约374亿美元融资总额相关产业规模约570亿人民币数千亿人民币相关产业规模2008-2019年专利数66508项448684项2008-2019年专利数中国2019期间AI相关论文发布数量为全球第一,FWCI引用指数为0.8,上涨明显;AI人才储备方面综合排名全球第7,仍有很大发展空间;中国AI相关企业数量和活跃企业数量均居世界第二,仅次于美国;2019年AI相关融资中,中国融资总额为166亿美元;相关市场规模方面中国2019年预计规模为570亿人民币,占据世界头部阵营;2008-2019年AI相关专利申请共发生448684项,中国有66508项,位居世界第二。注释:FWCI是标准化后的论文影响力,计算的是对象论文的被引用次数和相同学科、相同年份、相同类型论文平均被引次数的比值,当FWCI1时,代表论文质量达到或超过了世界 平均水平,设定世界均数为1,中国AI发展属世界前列,并仍处于上升期,前景良好全球人工智能发展了六十年,中国参与了二十余年,随着政府意志和市场意志双重聚焦,中国的人工智能发展进入了黄金 期。对比2019年中国与全球人工智能发展情况,在AI相关论文发布数量、企业数量、融资总额、产业规模、专利申请数量 等方面中国均居世界头部阵营,具有充分的市机场竞争力。补足短板方面,中国也在不断努力。人才储备是技术软实力发 展的核心,教育问题并非能一蹴而就地解决,目前全国已经有35所高等院校开设了AI专业,国际交流和国际人才引进也在 不断加深,未来5年内将有大量从业者涌入市场。产业结构单一也是中国人工智能行业存在的固有问题,研发型企业远少 于应用型企业的隐患随着中美专利竞争而浮现,政府开始重视AI基础层创业公司的培养,资本方也更加关注AI芯片、机器 学习算法、数据处理等产业链上游企业的发展,科技巨头企业更是提前进行了AI生态布局,建立了产业联盟,在各方的努 力中中国AI市场处于从局部向整体发展的上升期,行业前景良好。2019年中国与全球人工智能发展情况对比,中国人工智能典型产业规模,2018-2022年中国人工智能赋能实体经济 市场规模,2019年AI赋能实体经济预计贡献收入超570亿元近几年,人工智能技术在实体经济中寻找落地应用场景成为核心要义,人工智能技术与传统行业经营模式及业务流程产生 实质性融合,智能经济时代的全新产业版图初步显现,预计2019年人工智能核心产业规模将突破570亿元,目前,安防和 金融领域市场份额最大,工业、医疗、教育等领域具有爆发潜力。,2019年中国人工智能赋能实体经济各 产业份额,251.1,570.1,819.8,1157.0,1573.0,20182019e2020e2021e,2022e,人工智能赋能实体经济所产生的市场规模(亿元),53.8%,15.8%,11.6%,4.2%,4.0% 3.6%,3.4%,2.4%,0.8%,0.4%,AI+安防AI+零售,AI+金融AI+制造,AI+营销AI+教育,AI+交通AI+农业,AI+客服AI+医疗,中国科技企业人工智能算法研发投入,2019年中国科技企业AI算法研发投入规模预计超370亿元根据数据分析,2019年中国科技企业技术研发投入约为4005亿元,其中人工智能算法研发投入占比为9.3%,超370亿元, 且大部分投入来自互联网科技公司。主要AI算法应用领域计算机视觉、语音识别/语音合成,以及自然语言处理占比分 别为22.5%、2.3%和7.1%,三者中计算机视觉相关算法研发投入占比最大,这与视觉相关创业公司数量、产业需求和政策 导向呈正相关联系,计算机视觉目前仍是中国最具代表性的AI应用技术。,2019年中国科技企业AI算法研发投入情况,2019年中国科技企业AI主要领域算法研发投入情况,计算机视觉类语音识别/语音合成类 自然语言处理类其他(如知识图谱、数据科学、机器学习等),占比 22.5%,占比 2.3%,占比 7.1%,2019年中国科技企业技术研发投入(亿元)2019年中国科技企业AI算法研发投入(亿元),4005,约为371亿元,占比9.3%,64%的研发投入来自互联网科技公司,中国及全球人工智能发展概览,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务行业壁垒,3,行业发展机遇与挑战,4,25.9,30.9,36.3,42.8,50.7,76.761.4,101.1,19.6%,17.5% 17.8%,18.5%,21.1%,24.8%,31.8%,中国人工智能基础数据服务市场规模,2025年市场规模将突破100亿元,年化增长率为21.8%艾瑞通过对中国AI基础数据服务行业中主要需求方、品牌数据服务商、主要中小型数据供应商等多方调研描绘市场情况, 根据数据显示,2019年中国AI基础数据服务行业市场规模可达30.9亿元,其中图像类、语音类、NLP类数据需求规模占比 分别为49.7%、39.1%和11.2%;根据需求方投入情况和供应方营收增长情况推算,预计2025年市场规模将突破100亿元, 年化增长率为21.8%,该行业核心业务与当下以监督学习为主的人工智能市场具有强相关联系,市场发展前景向好。,201820192020e 2021e 2022e 2023e 2024e 2025e2019年AI基础数据服务市场规模(亿元) 整体市场增速来源:艾瑞通过对包括互联网科技公司与人工智能公司在内的十几家数据主要需求方代 表,和品牌数据服务公司与中小型数据供应商等十几家主要数据供应商调研,统计分析 数据而得。,2019-2025年中国AI基础数据服务行业市 场规模,2019年中国AI基础数据服务行业市场规模 中各类型数据占比,49.7%,39.1%,11.2%,语音类数据需求占比(%),图像类数据需求占比(%)NLP类数据需求占比(%),2019,2020e,2021e,2022e,2023e,2024e,2025e,从需求方角度看市场增速,增量市场增速整体市场增速存量市场增速来源:艾瑞根据专家访谈自主研究绘制。注释:文中存量市场指数据资源服务行业已有并且稳定的业务范畴,如人脸识别、车辆识别、图片识别、语音识别等相关业务;增量市场指海外业务、新增需求方、新增业务场景等。,整体市场增速受影响达到 临界值,开始注重增量市 场的开拓,减轻对存量市 场的依赖,整体市场增速受新创立 AI公司增速的下降和存 量市场增速的下降所影 响,增速处于下降状态,增量市场增速逐渐成为AI,基础数据服务市场的主要,长尾需求,整体增速平稳向上,增量市场将替代存量市场成为主要拉力AI基础数据服务市场从需求角度看可以分为存量市场和增量市场,存量市场中巨头互联网科技公司和AI创业公司为主要需 求方,项目落地所需要的采集、标注数据逐渐成为需求核心,存量市场仍是目前AI基础数据服务市场的需求主体;增量市 场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的AI创业公司需求为主, 增量市场虽然近些年对于整体市场规模的贡献率不够明显,但随着中国人工智能技术的不断深入与国际化,在未来将成为 主要的拉动力量。从短期来看,AI基础数据服务市场增速仍然与存量市场增速紧密相关,主要依赖于已有客户常规业务委 托,以及如语音识别业务中方言、小语种数据需求增加等内容更新需求支撑发展,随着存量市场需求逐渐长尾化,供应方 将会更加关注增量市场的拓展,来减轻对已有客群的依赖,达到良性的可持续发展。2019年-2025年中国AI基础数据服务市场需求增速情况增速的CAGR=8.5%,增速的CAGR=153.9%,增速的CAGR=-10.0%拉动力量,存量市场成为,26.2%,73.8%,从供应方角度看市场格局(1/2),CR5为26.2%处于低集中竞争阶段,中小企业占比仍较大品牌数据服务商、中小数据供应商和需求方自建团队是市场中的主要供应方,在2019年AI基础数据服务市场规模中的份额占比分别为30.4%、47.0%和22.6%,可见中小型数据供应商仍然是市场中的主要供应力量。通过对行业头部公司进行集中度计算,可知2019年AI基础数据服务行业CR5(前五大企业市场份额)为26.2%,处于低集中竞争阶段,行业活力充足, 发展空间良好。前五大企业中,海天瑞声与百度数据众包越众而出,据了解国内整体供应方中,以提供图像类数据采标服 务的公司居多,内容涉及人像数据、OCR数据、自动驾驶数据等,业务需求较为分散,其中以百度数据众包营收份额占比 最大。相比而言,语音类数据需求较为集中,且供应门槛高于图像类数据,内容包含语音识别数据、语音合成数据等,其 中以海天瑞声营收份额占比最大。,来源:艾瑞通过对主要需求方的自建团队执行情况、品牌数据服务商和主要中小数据供 应商营收数据进行统计分析而得。,CR5其他来源:艾瑞根据专家访谈自主研究绘制。注释:CR5为行业中营收前5家企业的集中度情况,上图中企业排列顺序为随机顺序不含 特殊意义。,47.0%,30.4%,22.6%,品牌数据服务公司份额,中小型数据供应商份额需求方自建团队份额,2019年中国AI基础数据服务行业供应方 格局,2019年中国AI基础数据服务行业CR5及代 表企业语音和视觉业务代表企业,从供应方角度看市场格局(2/2),来源:艾瑞根据专家访谈自主研究绘制。注释:右图中“2019年市场份额数据” 与“相比于预测值释放数据”为不同逻辑下的两组数据,不可直接进行算术运算,其中预测数据来自2019年艾瑞对AI基础数据服务行业的研究测算,数据并未公开;释放比例=2019年实际份额-2019年预测份额/2019年预测份额。,中小型供应商份额持续缩小,品牌商地位确立价值逐渐凸显从供应方的发展来看,行业内部处于“洗牌”阶段,虽然中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、 客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期 人员成本的压力,该群体在未来1-2年内将迎来一阵“倒闭潮”。通过数据显示,2019年中小型数据供应商份额比预期值 缩小了20.8%,而这部分份额按7:3的比例,向品牌数据服务商和需求方自建团队释放,作为行业的头部阵营品牌数据服务 商在这一阶段受益最多,不仅营收方面得以增长,也逐步稳固了自身领头羊的地位。而根据增量市场的特征,品牌数据服 务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,在未来增量市场成为主要拉动力的竞争阶段将 占有更大的主动性,从这两方面看,未来品牌数据服务商阵营将替代中小型供应商阵营,占有市场的主要份额。2019年中国AI基础数据服务市场格局和动向,需求方,品牌数据服务商,中小型数据供应商,海外市场对国内数据服务商能力和差别的 认知有待提高,更看重供应方营 销团队的专业性和“初体验”项 目的完成情况。国内新需求方市场对AI算法训练和数据采购的认知 不深,需要较完整的服务,更看 重供应方的品牌效益。国内新兴业务拓展面对新兴业务,在没有可参考标 准的情况下,需求方更看重供应 方的资质、服务意识、业务能力。国内新创AI公司以二次创业者居多,对于市场有 一定的认知,更看重供应方的价 格、稳定性和交付能力。,2019年市场份额30.4%,2019年市场份额22.6%,2019年市场份额47.0%,相比于预测值释放了14.5%,需求方自建团队相比于预测值释放了6.3%,增 量 市 场,存 量 市 场,品牌数据服务商竞争环境和趋势分析,1-2年窗口期后进入竞争阶段,品牌商应提前布局由于目前AI基础数据服务行业对于劳动力存在密集性需求,所以人力输送和项目转包等服务形式会持续存在,因此中小型 数据供应商仍会占有一定的市场份额,不过大部分玩家将逐渐远离“利润中心”。以中小型数据供应商份额缩小的速度看, 未来1-2年内“红利份额”将释放完毕,所以该阶段对于品牌数据服务商而言是行业窗口期,品牌之间不需要产生太强的竞争,就会带来较为可喜的营收增长。这一时期过后,品牌数据服务商阵营将占有市场的主要份额,各家品牌商都经过不 同阶段的打磨,具备了较强的竞争力,市场开始了充分竞争时代,出现价格战几乎成为了必然,因此在这一阶段中,能够 利用精细化运营,使单位价格利润更高的公司将具有更强的价格承受能力,可以在激烈的市场竞争中胜出。为了在后续的竞争中占据先发优势,品牌数据服务商在这1-2年内应该“居安思危”,面对存量市场时注重品牌认可度塑 造、增加技术投入提高规模化生产能力、提高技术壁垒发展精细化运营方式、增加如语音合成(TTS)数据处理等差异化 服务,最终追求的是单位价格的利润最大化;增量市场尚未形成充分的竞争环境,应注重打造品牌影响力,增加曝光度、 提高服务意识,增加自身对AI算法的理解能力,积极主动配合客户的探索性需求、重视培养海外营销团队,将业务出海视 作重要战略、增加数据采集能力,快速迭代自身业务以适应需求变化,最终追求打造品牌与实力的双重口碑效应,扩大市,场影响力。,2019年中国品牌数据服务商竞争环境和趋势分析,未来1-2年后,中小型数据 供应商“红利份额”将释放 完毕,品牌数据服务商占据 市场主要份额,品牌数据服务商面对存量市场应提前布局的方向塑造品牌认可度增加技术投入,提高规模化生产能力提升技术壁垒,发展精细化运营方式增加差异化服务最终追求单位价格利润最大化,品牌数据服务商面对增量市场应提前布局的方向打造品牌影响力,增加曝光度提高服务意识,增加AI算法理解能力重视培养海外营销团队,先一步开拓海外市场增加数据采集与处理能力,快速迭代自身业务最终追求品牌与实力的双重口碑效应,人力输送和项目转包等服务 形式会持续存在,因此中小 型数据供应商仍会占有一定 的市场份额,不过大部分玩 家将逐渐远离“利润中心”,品中牌小数型据数服据务供商应份商额份 额,中国及全球人工智能发展概览,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务行业壁垒,3,行业发展机遇与挑战,4,人工智能基础数据服务业务流程和壁垒,分四步流程,壁垒体现在经验、渠道、能力、管理和技术上AI基础数据服务行业的产品形式主要为数据集产品和数据资源定制服务,二者在业务流程方面基本相同,都按照数据库设 计数据采集(或需求方提供)数据处理质检的步骤执行, AI基础数据服务商凭借多年的服务经验,在各环节中均可 建立壁垒,以巩固行业地位。通过对需求方和供应方样本的调研分析,发现拥有对计算机视觉、智能语音、NLP等算法训 练需求的深刻理解能力、拥有更专业的数据库设计能力、拥有更具前瞻性的数据集产品设计能力,以及参与过更多探索型 项目的公司在获取新客户和新任务时具有明显优势;拥有更丰富的方言,小语种,全球各地人脸采集渠道、场景搭建能力, 特殊场景数据采集能力和如语音合成、3D点云等高门槛数据标注能力的公司业务更加稳定;拥有稳定的供应链团队、实时 量化的可视化管理系统,以及AI算法加持的公司在精细化管理和利润把控方面更具优势。人工智能基础数据服务行业业务流程和竞争壁垒,供应方的项目经理根据客户需 求和行业经验设计数据结构、 执行周期、人员配比等方案计 划,然后进行小样本测试,与 客户进行沟通调整。壁垒:拥有对计算机视觉、智能语 音、NLP等算法训练需求的 深刻理解拥有更专业的数据库设计能 力,以及相关的技术工具拥有更据前瞻性的数据集产 品设计能力,数据库设计,数据采集(或需求方提供),数据处理,质检,供应方根据方案设计,对目标 领域、场景的特定数据进行采 集,多以人像、车辆周遭环境、 声音片段等内容为主。,壁垒:,拥有更丰富的方言、小语种、,全球各地人脸采集渠道拥有场景搭建能力,特殊场 景数据采集能力拥有算法对数据预处理能力拥有稳定的采集供应链采集过程完全采用授权机制,供应方对采集到的数据或客户 提供数据进行标注,标注内容 和规则由双方沟通确认,一般 以语音识别、语音合成、图形 识别、视频识别、语义理解所 有数据为主。壁垒:拥有语音合成、3D点云等 高门槛的数据处理能力拥有AI预标注能力拥有AI辅助,人机协作能力拥有管理和执行平台化能力拥有全流程数据安全保障,供应方根据行业经验制定质量 监管制度,通过贯通整个业务 流程的一体化数据平台对各个 环节人员行为和数据质量进行 把控,确保最终产出的结构化 数据合规、保质。壁垒:拥有实时量化的可视化管理 系统拥有多重追责性的全查、抽 查机制拥有AI批量检测能力拥有生物识别监控能力,AI基础数据服务主要包括数据资源定制服务和数据集产品两种产品形式,前者是根据客户需求执行的,后者是基于供应商对AI算法和行业方向前瞻性判断, 而产出的通用型标准产品,二者业务流程相同,管理和执行系统平台化融合能力,集数据标注、项目管理和质量把控于一身,以平台管理替代 人员管理,是该行业科技化转型的关键一步随着AI基础数据需求多样化,以及复杂程度的提升,以往项目经理“人管人”的管理方式和使用单一工具应对单一需求的 执行方式在能力和效率上都显得捉襟见肘,尤其对于品牌数据服务商而言,客户类型丰富、数据需求多样、并发项目众多, 仍使用传统方式,将会因产能天花板的压力,而限制发展规模,如单纯扩大人员团队又会陷入重资产运营和边际效益低的 漩涡,难以快速确立行业地位以面对下一阶段的竞争。因此,拥有一套自主研发贯通数据库设计、数据采集、数据处理、 质量检测、质量控制和数据安全管理等各环节于一体,并且能对图像、文本、语音、视频以及点云数据做到一站式加工处 理的管理和执行一体化平台,能在提升人机协作效率,扩大产能,灵活可变地增加标注能力之外,准确地把控每一环节的数 据安全和质量问题,将全公司综合实力集中体现出来,是实现人力驱动向技术驱动的关键一步。管理和执行系统平台化融合结构,应 用,工 具,技 术,数据采集,数据标注,项目管理,人工智能算法预处理能力,在数据采集和处理环节中应用感知智能,进行人机协作,能 降低标注难度,提升生产力如果说人工智能是加速数字化革命的发动机,那数据资源服务行业就在为其生产汽油,同时这台发动机也在反哺行业。AI 在数据标注领域主要应用于数据采集和数据处理环节,在数据采集中无论是图像或是语音数据都会出现重复样本和不合格 样本,人工通过抽查或是遍历每一个样本的方式校验,在准确率、成本把控和时效性方面都大有不足,而通过使用计算机 视觉和语音识别技术对采集到的样本进行初步识别,可以在短时间内达到90%以上的校验正确率,实现几倍于人力的工作 效率,更有如海天瑞声的应用案例,将其研发的语音识别设备直接用于声音收录阶段,省去了校验后的返工流程,进一步 减少执行阻力。在数据处理环节中,标注员需要对图像数据中每一个目标元素进行拉框或标点,目标边界需要勾描的十分 精准,进行语音标注时需要聆听每一个词语的发音,判断并转写其语义,这对于标注员在长时间多任务下的专注力有着极 高要求,在此环节应用人工智能可以对图像数据进行场景分割、人脸和物体识别,对于语音数据进行语音识别、文字转写 和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还变相增加了生产力。目前人 工智能尚不能取代人力,清楚认识其价值,并积极应用到人机协作中,将成为AI基础数据服务行业精细化管理中鲜明的竞,争壁垒。,人工智能算法在业务流程中的应用,原始需求,方案验证阶段,正式采集阶段,数据质检阶段,交付阶段,数据整理,数据交付,数 据 采 集,数 据 标 注,交付阶段,方案验证阶段原始需求方案设计,数据质检阶段自动审核质量监测,数据整理,数据交付,正式标注阶段AI预标注人机标注,图中 黄色 方框 为AI 技术 应用 环节,小样本,小样本测试,语音合成数据处理能力,专业门槛高而鲜有服务商涉足,从而形成排他性竞争壁垒语音合成技术已经广泛应用于人们的日常生活中,如手机助手、智能客服、智能音箱、语音导航都是其应用场景。目前语 音合成的主流方式可以分为波形拼接合成和参数合成两种,其中参数合成是利用文本参数和声学参数间形成映射模型,从 而完成文本内容向语音转化的过程,所以在有限样本数据的情况下,参数合成语音成为了众多智能语音算法团队的首选, 随着深度学习在语音领域的突破,利用神经网络取代传统映射建模的参数合成方式,在合成效果上更进一步,逐渐减少了 合成语音的机械感。在语音合成中AI公司着重于映射模型算法的创建和训练,而语音片段数据和相应的声学参数标注则交 由数据服务商提供,其间数据服务商需要对录制的发音人语音片段进行音素、韵律、音节边界、音素边界、词性、重音、 声调等内容进行标注,然后切分、截取音素边界;并且在项目初期需要向客户展现合成demo,在项目交付时需校验合成 效果,这就要求数据服务商不仅要掌握专业的声学知识、数据标注经验,还要拥有语音合成的算法能力,目前该领域主要 由海天瑞声和标贝科技两家数据公司提供服务,未来随着物联网的普及,将会有更多交互设备出现,语音合成需求将会持 续增长,在此趋势下,拥有语音合成数据处理能力,将成为具有排他性的竞争壁垒。,来源:艾瑞根据公开资料自主研究绘制。,注释:文中基频参数指声音的基础参数,如音调、音色等;谱参数指韵律等参数。,参数语音合成流程框架和AI基础数据服务商服务内容,语音库,基频参数提取,谱参数提取,模型训练,上下文属性集和问题集,文本分析状态序列生成语音参数生成参数合成器,语音合成模型,输入文本,输出语音,训练模块,合成模块,AI基础数据服务商,服务内容,中国及全球人工智能发展概览,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务行业壁垒,3,行业发展机遇与挑战,4,行业发展与挑战,下游利好和洗牌红利期将推动品牌公司发展壮大,但竞争已 悄然开始结合报告上述分析内容,目前人工智能行业仍以有监督学习的模型训练方式为主,对于标注数据有着强依赖性需求,但随 着AI商业化进程的演进,更具有前瞻性的数据集产品和高定制化服务成为了AI基础数据服务行业的主要服务形式。从全球 角度来看,人工智能发展依旧火热,逐渐形成以北美、欧洲和东亚为代表的发展集群,产学研各方人才向其中涌入,世界 范围内的产业交流与合作逐渐形成规模,并日趋常态化。对比中国与世界的发展情形来看,中国正处于补全短板,丰富产 业,培养人才,进而向外输出技术能力的快速发展阶段,人工智能行业发展前景良好,而作为强关联性的AI基础数据服务 行业受其发展红利的影响,未来市场仍有不小的上升空间。着眼行业内部,伴随着上一轮AI创业热潮的平息,行业经过了 一轮洗牌,脱颖而出的品牌数据服务商和中小型数据供应商形成了主要的供应方力量,但随着需求方市场由粗犷向精细化 过渡,项目要求提高、利润压缩、管理成本上升等问题迫使了一众中小型厂商提前离场,在未来一到两年内行业将再次迎 来洗牌。下游行业发展带来的利好,以及行业内部洗牌的趋势,对于品牌数据服务商而言是机会也是挑战,存量市场和增 量市场具有稳步向上的潜力,洗牌后空白市场留出的空窗期将成为剩下企业的红利,但竞争也在悄然发生,红利过后市场 将进入品牌间的正面较量阶段,对于存量市场和增量市场的抢夺将成为主旋律,这于对品牌公司的生产力、精细化管理能 力、利润把控能力、营销能力和品牌影响力都带来了巨大的考验,为应对竞争,品牌公司应在红利期就早早布局,以技术 应用和研发为驱动力,产生更多行业壁垒换取更多主动性。AI基础数据服务行业发展的四个关键点,AI行业发展带来利好,行业洗牌带来红利期,品牌间将开始 正面竞争,技术驱动将产生 更多行业壁垒,THANKS,
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642