20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf

返回 相关 举报
20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf_第1页
第1页 / 共61页
20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf_第2页
第2页 / 共61页
20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf_第3页
第3页 / 共61页
20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf_第4页
第4页 / 共61页
20191218-和鲸科技-数据竞赛白皮书上篇:1000场竞赛的深度分析_61页_7mb.pdf_第5页
第5页 / 共61页
点击查看更多>>
资源描述
of数据科学协同平台序第一章 数据竞赛 ,数字化创新的新模式一、竞赛规模与资源投入趋势1. 奖金投入意愿攀升,参与规模稳增2. 数据红利可期,数据投入姿态积极二、赛题应用场景与技术类型分布1. 应用场景不断扩散,标杆行业优势初显2. 覆盖主流 AI 技术,计算机视觉热度延续三、全球数据竞赛发展历程1. 以工业应用为目标,数据竞赛模式诞生2. 引领全球化前沿探索,国际顶会先锋探路3. 平台化模式全面开启,Kaggle 加速资源汇聚四、数据竞赛外生环境趋势1. 商业数字化趋势渐强,有赖技术创新落地2. AI 上升为国家战略,推动数据赋能实体经济3. 云计算技术日益成熟,提供基础设施保障4. 青睐背后充满审慎,资本看重 AI 落地价值5. 媒体普及大众化认知,竞赛收获正面舆评6. 教育投入与日俱增,数据人才能力跃升第二章 数据竞赛,数据智能落地的练兵场一、竞赛驱动的数据科学创新1. 数字化转型成本提升,暗藏众多风险2. 竞赛低耗高效可持续,创新探索敏捷化二、对竞赛的理性评价与思考三、选手眼中的竞赛价值四、竞赛对四大办赛主体的赋能实效1. 引领企业进行技术落地场景的创新探索2. 促进高校加强学科建设与人才培养3. 推动科研机构加速产研融合与技术发展4. 助力政府实践产业落地和建设数据创新生态附录CONTENTS03040808091010151717181923232425262829323334353839424547495153数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛驱动下的数字化创新生态。在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。高亮看点关注数据竞赛白皮书下篇办好一场竞赛的实操手册,看点三深度内容尽在掌握。看点一:1000+场数据竞赛,催生数据智能时代全球性政、企、学、研、资各界联动新常态 2014 年至今,全球范围内的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中;吸引约36万支团队、120万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖 33 个行业应用场景; 1997年,享誉全球的国际顶级学术会议KDD推出KDD Cup,开启了数据竞赛的新模式,20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。看点二:15 个案例特写,看懂数据竞赛为何成为数字化创新的有效手段 以赛题承载应用场景,在紧凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽 ,助力数据创新生态建设和产业落地。看点三:100+场专业赛事服务经验,一流竞赛平台开源数据竞赛管理方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金 并非竞赛核心诉求,从专业性赛题、科学性评审,到协作式工具、精细化运营,组织一场优质的数据竞赛颇有挑战; 竞赛全生命周期都面临着来自参赛选手和主办方的双重审视,既要能够通过打造良好的参赛体验高度激发数据科学人才的能动性和生产力,又要通过专业的数据科学服务能力和精细的运营流程充分满足赛事主办方贯穿赛事全程的多元诉求; 保障赛事功能,开创数据科学研发全新协作模式数据科学协作工具成为数据时代最重要的基础设施之一。02 数据竞赛,数字化创新的新模式数据竞赛白皮书下篇办好一场竞赛的实操手册数据竞赛白皮书上篇1000 场竞赛的深度分析数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了数据竞赛这一载体,以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术会议 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)推出的 KDD Cup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于 2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联网时代诞生的独角兽,亦不乏Walmart、Airbus、Genentech等声名日久的传统行业领头羊。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。数据竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收获丰厚奖金”的公关活动。对双方而言,数据竞赛已经成为了数字化转型的“云端实验室”。赛事主办方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据+算力+人才+算法”的价值闭环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验,在与众多高手的交流切磋中不断成长。基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“H”携旗下中国领先的第三方数据竞赛平台“和鲸社区(即K)”,联合AWS,共同发布数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最佳实践。序第一章数据 竞赛,数字化创新的新模式一、竞赛规模与资源投入趋势二、赛题应用场景与技术类型分布三、全球数据竞 赛发展历 程四、数据竞赛外生环境趋势图 1-1 数据竞赛生态版图数据竞赛,数字化创新的新模式 05数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。2014年至今,全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已通过 12 个数据竞赛平台发布共计逾 400 场数据竞赛,占比近半,且年均增长率高达 108.8%。 236家 企业、政务 部门、高校和科研机构作为赛事主办方参与其中 ;吸引约36 万支团队 、 120 万人次 参赛;奖金规模合计高达 2.8 亿元 人民币,赛题覆盖金融、交通出行、安防、航空天文和生物科技等 33个应用场景 。利用数据竞赛探索数字化创新与前沿技术的落地应用方向正在成为数据科学生态必不可缺的一环。通过对这 400 场数据竞赛的深入分析,我们试图从更全面、更深入的角度理解中国市场的数据竞赛生态。数据来源:和鲸科技()制作。引用请注明出处。图 1-2 数据竞赛赛题数量与参赛团队变化趋势在过去数年间,数据竞赛赛题数量增势日渐强劲,表明利用数据进行产业赋能的创新探索需求不断增加,越来越多的组织机构以拥抱人工智能的开放心态积极探索数字化转型的更多可能。在被称为大数据元年的2015年,先进技术带来的经济效应规模化显现,在技术赋能产业的进程中,“由社会成果广泛参与、公开透明、自下而上、分权决策”的社会创新作为全新组织范式日渐走进人们的视野,数据竞赛作为其重要表现形式之一,开始作为探索潜在应用场景、甚至解决实际问题的有效手段 被接受 。与此同时,政府及事业单位需要依赖技术进行数据化驱动的社会数据来源:和鲸科技()经调研统计得出。引用请注明出处。01,00010,00001,00010,000100,0000100,0001,000,00010,000,000030治理与城市优化。进入2017、2018年,在越来越多企业投入数据竞赛的同时,由高校、科研机构与政府单位主导的数据竞赛数最也保持着较强的涨幅、从科研探索,到商业场景应用,再到社会治理,数据竞赛赛题内容可谓百花齐放。而参赛人数的指数级增长也释放出两方面的信号: 其一,不仅限于计算机和数学背景,越来越多的不同背景的人才开始接触数据科学;其二,伴随着技术的革新,产业对于数据科学应用价值的认知和兴趣不断强化。06 数据竞赛,数字化创新的新模式通过这项赛事的成功举办,南京市人民政府向外界清晰地传达:南京市人民政府对于数据科学及人工智能产业的支持力度是空前的,通过提供坚实有力的扶持政策和对接优质资本,南京有能力、有魄力、有信心把握人工智能时代的发展趋势,以更懂科技企业的方式聚集数据科学人才、提供配套设施服务、助推数据科学全面发展。案例特写:2018 全球(南京)人工智能应用大赛社会各界全面联动的大型赛事赛事主办方: 南京市人民政府 作为国内顶级规模的数据科学赛事,2018 全球(南京)人工智能应用大赛推动了产、政、学、研各界的全面联合,因其社会价值之高、调动资源之多、影响范围之广引发了各界的高度关注。南京市人民政府联合 2 家科研机构、3 所高校、15 个企业共同发布了覆盖“智能制造”、“智能驾驶”、“智能生活”、“智能医疗”、“智能城市”五大产业应用领域的 20 道赛题,设立 600 万元奖金池及 20 亿元人工智能产业风险投资基金,吸引了近 3000 名数据科学人才的参与。扫描上方二维码了解更多赛事详情2018 年 5-9 月,和鲸承办由南京市政府主导的 2018 全球(南京)人工智能应用大赛,联合产、政、学、研、资各界机构组织针对五大产业应用领域方向共计发布 20 道并行赛题,所有赛题从解决产业实际困难出发,充分体现 AI 技术在各行各业的深度应用赋能价值,一批提高生产效率甚至改变商业模式的解决方案,从本次大赛中涌现。五大领域 20 道赛题,覆盖社会生产重要领域数据竞赛,数字化创新的新模式 071M2M3M4M5M1K0 2K 3K 4K 5K 6K 7K 8K 9K 10K物流气象高校服务通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全军工业法律海洋工具教育体育交通出行金融商业开放应用文娱传媒人工智能电子商务工业制造业新零售医疗健康人文服务及社会治理物流气象高校服务网络安全通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全法律军工业安防海洋体育教育工具5M10M15M20M25M30M35M40M45M50M55M60M5K0 10K 15K 20K 25K 30K 35K 40K 45K 50K交通出行电子商务工业制造业医疗健康安防人文服务及社会治理网络安全新零售金融商业开放应用文娱传媒人工智能图 1-3 各行业赛题的奖金投入与参与规模一、竞赛规模与资源投入趋势数据竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科学投入力度和各类技术领域内的人才结构。 自 2014 年以来,无论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势,而人均奖金也呈同步上升态势 。由此可见各行各业在数据竞赛中的投入热情和力度不断高涨。具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势: 交通出行、工业制造、医疗健康 是目前数据竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。1. 奖金投入意愿攀升,参与规模稳增 奖金支付能力最高、数据科学人才热度最高的行业交通出行; 奖金支付能力较高、数据科学人才热度一般的行业工业制造、医疗健康; 奖金支付能力较低、数据科学人才热度较高的行业金融、文娱传媒、电子商务; 奖金支付能力较低、数据科学人才热度较低的行业气象、能源、高校服务。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 电子商务、社会公共服务、文娱传媒 等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。 安防、能源、气象 等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正向相关: 越高的奖金意味着技术难度越大,丰厚的激励有望推动尖端人才投身前沿问题的解决 。其中,计算机视觉类赛题的奖金水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规模庞大。08 数据竞赛,数字化创新的新模式2. 数据红利可期,数据投入姿态积极数据竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来吸引优质人才的加入,越来越多的主办方也 在数据安全与法规限定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的养料 。百度作为积极投身数据竞赛的先锋,已基于百度知道的真实问答文档建设了迄今为止 规模最大的中文公开领域阅读理解数据集DuReader,并完成了对总量类型、问答实体和观点等信息维度的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文档及42万个人工撰写的优质答案,并提供开源基线系统,从而为各行各业在自然语言处理领域的创新探索奠定了坚实基础 。由中科院打造的 CASIA-WebFace 数据集包含了 10575 名个人的494414 张图像,是 训练人脸识别模型的重要素材 。此外,在由百度主导的“智能问答”和“综艺节目精彩片段预测”两场数据竞赛中,百度联合汽车大师和爱奇艺分别提供了汽车大师平台上的 11 万条真实问答数据、以及总长约 1200 小时的1470 条爱奇艺电视综艺视频。这些数据对最终优质成果的诞生发挥了至关重要的作用。携程将数据竞赛作为推动内外协同创新、解决实际业务问题的重要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒店销量概率预测、客户转化概率预测、航班延误预测、渠道销售能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果,在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为竞赛导入了海量真实业务数据 ,其信息涵盖酒店基础数据、历史订单数据、价格波动数据、竞品排名数据、历史航班动态起降数据及航班延误影响因素相关数据等。科研机构在日常研究工作中积累了大量数据,通过数据竞赛的开放式创新环境闭合的数据库在一定条件下进行开源,也无疑能够进一步促进这些数据的价值释放。率先将医疗大数据Datathon模式引进国内的解放军总医院,在 2018 年的 Datathon 中就曾发布并应用了 2015-2017年间在解放军总医院急诊科就诊数据库,以其作为Datathon竞赛的基础资源,通过跨学科、跨领域的交叉合作,真正推动了医疗大数据应用从理念到落地的探索 。政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数据的创新应用场景也成为了近年来各级政务部门的重要任务。越来越多的 政务部门通过数据竞赛开源数据红利,探索创新机遇 。举例来说,在由广西壮族自治区人民政府发起的全球数据智能大赛(2019)中,2015-2018年间广西 81 县十余个维度的气象和早、晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构建智能气象预测系统和精准预测水稻产量。数据竞赛,数字化创新的新模式 09图 1-4 数据竞赛赛题所涉行业分布二、赛题应用场景与技术类型分布1. 应用场景不断扩散,标杆行业优势初显数据竞赛自诞生以来,始终以数据科学落地场景的探索为主要优势特色,并对数据科学在不同场景下的应用能力和价值通过赛题进行验证和迭代 。从2014年至今中国市场400场数据竞赛的赛数据来源:和鲸科技()经调研统计得出。引用请注明出处。题可以看出,除了如推理问答、人脸识别等具有跨行业场景应用能力的赛题外,交通出行、金融、文娱传媒和工业制造是赛题场景涉及最多的四大行业。不同的应用场景之间存在一定的价值互通,而数据智能又具有普适性与迁移性,因此来自不同领域的数据竞赛 主办方在赛题场景的选择上表现出了丰富的多样性,不仅仅局限于自己的业务领域,也会高度关注数据在其它场景下的应用价值 。这不仅仅能以更广阔的视野探索创新机会,还可以帮助赛事主办方在数据安全、自有业务数字化准备不足等问题的限制下依然能够通过数据竞赛感受算力、算法和数据的协同带来的价值。10 数据竞赛,数字化创新的新模式图 1-5 赛事主办方行业类别与赛题场景行业类别的配对关系数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数字化创新的新模式 11300,000 4,8681,850,000 565840,000 1,507210,000 485表 1-1 金融场景的数据竞赛典型赛题 金融行业是数字化创新的主力自 2016 年 Fintech(金融科技)的概念面世以来,金融行业在技术创新方面的投入不断增强,以数据竞赛为主要手段的开放式创新更成为了金融行业的重要战略选择。金融行业在2017、2018两年连续成为赛事密度最高的领域,赛题数量占比达 66.7%,是技术创新的主力。量化投资和风险评估是最为常见的赛题场景,如根据海量股票交易数据生成量化投产策略,并在模拟盘上进行三个月的策略验证;同时,通过声纹、人脸等生物特征和个人信息的验证来加强金融风控力度也是较为常见的赛题应用场景。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 交通出行领域是应用场景不断成熟的典型代表2015 年,交通出行场景首次出现在数据竞赛的赛题中“游族杯”上海开放数据创新应用大赛以城市交通为主题,运用交通管理部门和相关企业提供的开放数据,以产品(原型)为比赛对象,结合线上线下活动,面向全国征集改善城市交通和市民出行的数据可视化应用和解决方案。此后,该领域在数据竞赛中的投入不断加强,赛题数目从 2015、2016年的每年各3道上升至2017年的7道,至2018年更是达到了23道之多。而赛题内容也在不断具象 从最初征集开放性产品方案,到后来进行路段拥堵情况预测、自动驾驶障碍物检测等,数据的应用方向越来越清晰、越来越聚焦 。至 2017 年,7道涉及不同具体场景的算法类赛题均诞生了优质的模型成果,完成了数据及算法应用成果的验证。数据来源:和鲸科技()经调研统计得出。引用请注明出处。UAIUAIUAIUAIUAIUAIUAIUAIUAIUAI图 1-6 交通出行领域数据竞赛赛题关键词12 数据竞赛,数字化创新的新模式表 1-3 文娱传媒场景的数据竞赛典型赛题 电信数据是跨界应用的典范绝大多数赛事主办方的赛题均集中在其所在行业领域的产业链上,以电信行业为代表的赛事主办方设立了丰富的跨界赛题,如利用电信用户地理位置信息预测其前往某地旅游的概率,或利用电信用户通信侧消费信息和手机使用行为信息预测其更换手机的概率。这与其电信业务存量市场已渐趋饱和的行业特点相关,也传递出了趋势性的信号:通过数据竞赛探索既有数据在跨界领域的应用,不仅能够建立起“算力 + 数据 + 算法 + 场景”的标杆案例,而且能够探索多产业间数据协同的增量价值。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 文娱传媒类场景是面向个人用户应用 AI 技术的直接端口自2015年以来,文娱传媒领域的数据竞赛赛题呈现逐年递增的态势,行为预测、营销内容创作、舆情分析成为了该领域最为常见的赛题场景。因赛题内容与个人消费者具有较强的相关度,该领域的竞赛往往能够引起广泛关注和积极参与,成为了面向个人用户应用数据智能的直接端口。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 工业制造业在政策与需求的驱动下积极组织竞赛工业制造领域的数据竞赛从2017年开始进入爆发期,以中国制造 2025为代表的人工智能国家发展战略是引导工业制造领域赛题数量剧增的重要原因之一。在宏观政策的指引下,政务部门率先成为了该领域数据竞赛的主要主办方。广东省人民政府牵头的工业智造创新大赛便是典型代表,要求参赛选手开发计算机视觉算法自动识别布匹疵点,以及对布料剪裁进行最优规划。表 1-2 电信行业的数据竞赛典型赛题2,200,000 2,0381,000,000 2,546100,000 76840,000 3781,000,000 1,0711,000,000 8,848380,000 5,475230,000 1,485数据竞赛,数字化创新的新模式 13表 1-5 新零售场景的数据竞赛典型赛题表 1-4 工业制造场景的数据竞赛典型赛题数据来源:和鲸科技()经调研统计得出。引用请注明出处。 技术发展与消费升级推进新零售领域数据竞赛的爆发新零售行业的本质在于技术发展与消费升级带来的供需多元化、智能化以及精准化,商品识别、精准营销、供应链管理是该领域主要的赛题场景。新零售领域的竞赛主办方行业辐射范围较广,交通出行、金融、通信行业的机构组织均参与过新零售场景赛题的出具。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 探索底层创新技术的赛题具有可复制价值此外,不同产业的某些场景之间存在一定的价值互通与共生性,以具有跨行业泛化应用能力的底层创新技术作为赛题方向,能够加速关联领域的数字化创新探索。例如对于图像的目标识别、对于文本情感的分类都具有跨行业领域的泛化应用价值。1,000,000 1,809222,025 4,504550,000 2,5291,000,000 9061,340,000 2,950300,000 2,100170,000 41114 数据竞赛,数字化创新的新模式2. 覆盖主流 AI 技术,计算机视觉热度延续数据竞赛赛题的技术类型主要包括结构化数据挖掘、计算机视觉、自然语言处理、语音技术四大类别。不同产业在不同发展阶段对不同类别的技术有所侧重,但就现阶段来看,文娱传媒、医疗健康、智慧校园等行业因其对技术的开放程度较高,技术变现方向相对清晰,从而对各种技术类型的赛题均有所涉及。结构化数据挖掘方面的赛题分布最为广泛。对于赛事主办方而言,在场景应用尚未开发成熟之前,通过结构化数据挖掘类赛题加强对如何进行数据治理、如何打破数据价值应用壁垒、如何唤醒沉睡数据的理解是其重要意义所在。计算机视觉在未来较长一段时间内都将持续成为热门的应用焦点。从学术科研的角度来看,2013-2016 年间,计算机视觉相关论文发表数量每年保持着 24% 的高速增长,并在 2016 年人工智能领域的全量发表论文中占比高达 49%。而从数据竞赛角度来看,凭借着强大的跨行业应用能力,全国 400 场竞赛赛题中,计算机视觉方面的赛题数量占比高达 30%。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-7 数据竞赛赛题所涉技术类型分布数据竞赛,数字化创新的新模式 1524242171121313811654747863332 1111322010102166552253211217135111811311111121125910121212152113111112数据来源:WIPO(世界知识产权组织)-2019 人工智能技术趋势展望图 1-8 计算机视觉、语音处理、自然语言处理等技术领域的专利发布趋势表 1-6 涉及不同技术类型的赛题示例数据来源:和鲸科技()经调研统计得出。引用请注明出处。16 数据竞赛,数字化创新的新模式1981 1986 1991 1996 2001 2001 2011 201602,0004,0006,000Note: A patent may refer to more than one sub-category1981 1986 1991 1996 2001 2001 2011 201601,0002,0003,000Note: A patent may refer to more than one sub-category1981 1986 1991 1996 2001 2001 2011 201601,0002,000Note: A patent may refer to more than one sub-category 三、全球数据竞赛发展历程1. 以工业应用为目标,数据竞赛模式诞生全球数据竞赛市场已经历了 20余年的探索,其发展起点可追溯至 1997 年首次问世的 KDD Cup,这也是数据科学领域迄今为止最重要的国际赛事之一。推 出 KDD Cup 的 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)隶属 于 ACM(Association for Computing Machinery,国际计算机学会),是响誉全球的顶级学术会议。1997 年 的 首 届 KDD Cup 要求参赛者通过数据分析,判断出哪些人有可能成为美国瘫痪退伍军人协会的捐赠者,从而帮助协会更精准地发送求助邮件。此后,KDD Cup 保持了一年一度的举办惯例。1999年KDD Cup 的赛题更为经典,选用了来自美国国防部高级规划署在 MIT 林肯实验室操作进行的入侵检测评估项目数据,希望参赛者能够分辨那些操作是外部入侵,获胜者是广为人知的统计分析软件公司SAS。作为数据挖掘领域影响力最广、水平最高的国际顶级赛事,KDD Cup 每年都会吸引大量优秀的企业、高校或科研机构协办赛事,或直接参给与竞赛角逐。通过KDD Cup的历年赛题不难看出,虽然面临的问题日益复杂,但 始终带有强烈的工业应用色彩,高度契合各类组织机构的实际需求,也不断涌现出全新的应用场景 。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-9 KDD Cup 历年赛题数据竞赛,数字化创新的新模式 172. 引领全球化前沿探索,国际顶会先锋探路继 KDD Cup 之 后,ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议也陆续牵头举办数据竞赛。 国际顶会数据竞赛往往会积极兼顾市场应用的需求 ,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路, 不断缩短科研成果与落地应用之间的距离 ,赛题内容广泛覆盖医疗、军事、互联网、交通出行、快消零售、生态及文化保护等众多场景。数据来源:和鲸科技()经调研统计得出。引用请注明出处。国际顶会除了在世界不同地域举行年度性盛会外,也开始联手全球各地的企业、科研机构共同筹办数据竞赛,以竞争形式帮助前沿数据科学技术的进一步发展。这类享有顶会权威背书和国际影响力的重大赛事在全球范围内得到了积极响应,参赛对象不仅限于技术水平突出的个人,还囊括了科研实验室、高校和企业等一系列组织。中国企业、高校及科研机构和个人参赛者在国际顶会数据竞赛的获奖次数呈现逐年上升的趋势,亦反应了中国在数据科学领域的实力和影响力不断加强。表 1-7 国际顶会数据竞赛赛题示例18 数据竞赛,数字化创新的新模式案例特写:KDD Cup 2019以工业应用为导向的全球性顶级竞 赛赛事主办方: KDD 2019 年,KDD Cup 首次同步开设常规机器学习、自动机器学习、强化学习三条赛道: 常规机器学习赛道(百度承办):在赛题拟定上着眼于“智慧出行”,要求参考者基于城市复杂的出行情境推荐包括公共交通、出租车、自驾、骑行、步行等多种方式在内的合理的多模态出行方案。 自动机器学习赛道(第四范式、ChaLearn、微软和亚马逊联合承办):要求参赛者设计时序关系数据二元分类的解决方案。 强化学习赛道(IBM 承办):参赛者需要运用机器学习工具设计疟疾干预措施在模拟人群中的分配方案,以此为撒哈拉以南非洲地区的疟疾政策提供决策支撑。连续举办 20 余年的 KDD Cup 以“创新”为核心驱动力,加之积极拥抱全球化的态度,对工业界产生了强大的吸引力。正是越来越多来自世界各地的企业以其真实业务问题与相关数据为基础提出赛题建议,从而促使 KDD Cup 通过设立更丰富的赛道来探索前沿技术在真实场景中的应用价值,并创立了总额突破 10 万美元的丰厚奖金,吸引了逾 1600 支国际参赛队伍的加盟,影响力创历年之最。3. 平台化模式开启,Kaggle 加速资源汇聚数据竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力和知名度外,Kaggle 更是为数据竞赛的平台化发展奠定了模式的基础。创立于 2010 年的 Kaggle 是目前全球最大的数据科学技术分享社区和第三方数据竞赛平台,面向全球用户累计举办竞赛近 400 场(含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方基于不同的目标通过Kaggle发布与数据相关的难题,悬赏吸引全球的数据科学人才参与竞赛。迄今为止的各项赛事中,近半数主办方是希望通过竞赛进行与真实业务问题密切相关的创新探索(47.09%),其次是通过竞赛的广泛影响力与参与度来促进学术研究(23.26%),同时也有不少主办方将数据竞赛当作重要的品牌公关活动形式(20.93%)和招聘渠道(8.72%)。而从技术类型来说,Kaggle的赛题主要涉及结构化数据挖掘(58.14%)、计算机视觉(26.49%)、自然语言处理(11.63%)和语音技术(1.74%)四大类。数据来源:和鲸科技()经调研统计得出。引用请注明出处。Kaggle 数据竞赛的赛题场景呈现出丰富的多样性,其中科技领域的赛题数量占比达36.05%,具有绝对优势。紧随其后的金融、医疗、学术科研等场景组成了第二梯队,第三梯队则包含了社服务、电商、体育、零售和广告媒体等应用场景。图 1-10 Kaggle 数据竞赛主办方办赛目标分布和赛题技术类型分布扫描上方二维码了解更多赛事详情28.49%58.14%11.36%1.74%23.26%20.93%47.09%8.72%数据竞赛,数字化创新的新模式 19应用在房地产领域的赛题数量只有 2 个,分别是房地产估价平台Zillow 发起的房产价值估算模型算法竞赛,以及德勤发起的西澳大利亚房屋租金预测模型算法竞赛,其中 Zillow 凭借 120 万美元的高额奖金激励将房地产行业赛题的平均奖金拉升至65万美元,遥遥领先于其它行业。紧随其后的社会服务和医疗行业也在奖金数额上有不小投入。举例来说,美国交通运输安全管理局隶属于国土安全局,主要负责机场安检工作,该机构直接将面用公众的数据竞赛作为支撑其安检设备采购决策的重要依据,要求参赛选手开发出能够精准识别行李内危险物品的算法,并计划将优秀的成果集成进安检仪器以数据来源:和鲸科技()经调研统计得出。引用请注明出处。提高安检准备性和效率。这场竞赛中,主办方投入了高达 150 万美元的奖金,成为 Kaggle 竞赛奖金之最。此外,由博思艾伦咨询公司发起的 Data Science Bowl 品牌赛事主要聚焦于医疗领域,每届赛事都会吸引全球范围内各类机构组织在奖金、数据等不同方面的协力赞助,如亚马逊、英伟达等知名企业,以及美国放射学会、国家癌症研究所等科研组织。凭借丰厚的奖金和盛大的规模,Data Science Bowl 已成为 Kaggle 平台上最具影响力的年度性盛事,并在全社会的积极参与下诞生了大量创新成果。图 1-11 Kaggle 数据竞赛赛题场景分布20 数据竞赛,数字化创新的新模式数据来源:和鲸科技()经调研统计得出。引用请注明出处。在发展初期,Kaggle 聚集了一大批数据科学人才,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展数据竞赛服务。围绕着数据科学,Kaggle 做出了诸多努力和尝试,平台功能也日益完善, 目前包含竞赛、数据集、开发工具表 1-8 Kaggle 平台上奖金投入前 10 位的竞赛三个子平台,配套论坛和招聘服务两大模块,逐渐发展成为连接数据科学人才和数据科学应用场景双方共同致力于数据科学创新探索的工具性平台 。数据竞赛,数字化创新的新模式 21Kaggle Days在Kaggle的影响下,国外市场开始出现一批深耕不同细分领域的竞赛平台,如重点关注生命科学领域的 InnoCentive 和主攻公共服务领域的 DrivenData,此外,还有诸如 CodaLab 等平台支持数据科学家自主发起赛事。尽管中国市场起步较晚,但越来越多的企业、高校、科研机构和政务部门开始意识到数据竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身数据竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批数据竞赛平台,凭借在资源整合、场景挖掘、工具开发、成果封装等方面的专业服务能力和经验推动着中国数据竞赛的专业化发展,并开始探索区别于Kaggle 的差异化发展道路。数据来源:和鲸科技()经调研统计得出。引用请注明出处。此外,以百度、京东、华为、腾讯和爱奇艺为代表的一批企业从2017 年开始逐渐意识到数据科学对于其运营发展的重要性,依托其雄厚的技术先发优势走上了自营数据竞赛的探索道路,意图借此加强对数据的有效利用,从而优化企业运营流程、探索商业创新方向、实现人才的可持续发展,“业务驱动 + 数据创新”是企业自营数据竞赛的核心驱动力,企业自营赛题往往紧密贴合其自身行业特色和实际业务需求。表 1-9 中国市场主流的第三方数据竞赛平台概览22 数据竞赛,数字化创新的新模式12345四、数据竞赛外生环境趋势1. 商业数字化趋势渐强,有赖技术创新落地根据麦肯锡全球研究院发布的 MGI 行业数字化指数报告,在产业数字化动态发展的过程中,完备的数字资产积累、充分的资本投入与研发、可持续的人才连接与协同推进了产业数字化程度的不断加深,进而带来了较高的平均利润增长率以及劳动增长率。而数据竞赛在中国市场的崛起并非是对国外先进模式的亦步亦趋,而是在技术落地应用需求增长、云计算基础不断成熟、宏观政策支持、投资机构助推、媒体宣传引导、专业人才涌现等因素共力作用的必然结果。较为主动采用数字化战略的企业也能在后续发展中与竞争对手拉开差距。建立基于数据价值流动的生态系统,充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商业领袖的共识。数据来源:麦肯锡全球研究院图 1-12 中国 MGI 行业数字化指数数据竞赛,数字化创新的新模式 232.AI 上升为国家战略,推动数据赋能实体经济2015 年,中国积极响应“工业互联网”和“工业 4.0”的概念,提出了“中国制造2025的口号,旨在加快人工智能核心技术突破,促进人工智能在多领域的推广应用,抓住技术变革带来的全新经济范式为传统产业赋能的重大机遇,获得新的经济增长点。同年,国务院发布促进大数据发展行动纲要,明确要求推动大数据的发展和应用,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。2017 年 7 月,国务院印发新一代人工智能发展规划的通知,人工智能正式上升至国家战略层面,此后各类关于加快推进数据应用的政策相继出台。可以看到,在国家宏观政策的大力推进和坚实支持下,大数据、云计算以及人工智技术的不断迭代和成熟正在催生日渐规模化、网络化和生态化的内生驱动的生态经济体,其基础都在于借助算法和算力实现对数据价值的洞察。三个发展阶段的部分宏观政策24 数据竞赛,数字化创新的新模式1 2 3 4 51 2 3 4 51 2 3 4 5 62015-2016
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642