数据竞赛白皮书上篇:1000场竞赛的深度分析.pdf

返回 相关 举报
数据竞赛白皮书上篇:1000场竞赛的深度分析.pdf_第1页
第1页 / 共61页
数据竞赛白皮书上篇:1000场竞赛的深度分析.pdf_第2页
第2页 / 共61页
数据竞赛白皮书上篇:1000场竞赛的深度分析.pdf_第3页
第3页 / 共61页
数据竞赛白皮书上篇:1000场竞赛的深度分析.pdf_第4页
第4页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
of数据科学协同平台序第一章 数据竞赛 ,数字化创新的新模式一、竞赛规模与资源投入趋势1. 奖金投入意愿攀升,参与规模稳增2. 数据红利可期,数据投入姿态积极二、赛题应用场景与技术类型分布1. 应用场景不断扩散,标杆行业优势初显2. 覆盖主流 AI 技术,计算机视觉热度延续三、全球数据竞赛发展历程1. 以工业应用为目标,数据竞赛模式诞生2. 引领全球化前沿探索,国际顶会先锋探路3. 平台化模式全面开启,Kaggle 加速资源汇聚四、数据竞赛外生环境趋势1. 商业数字化趋势渐强,有赖技术创新落地2. AI 上升为国家战略,推动数据赋能实体经济3. 云计算技术日益成熟,提供基础设施保障4. 青睐背后充满审慎,资本看重 AI 落地价值5. 媒体普及大众化认知,竞赛收获正面舆评6. 教育投入与日俱增,数据人才能力跃升第二章 数据竞赛,数据智能落地的练兵场一、竞赛驱动的数据科学创新1. 数字化转型成本提升,暗藏众多风险2. 竞赛低耗高效可持续,创新探索敏捷化二、对竞赛的理性评价与思考三、选手眼中的竞赛价值四、竞赛对四大办赛主体的赋能实效1. 引领企业进行技术落地场景的创新探索2. 促进高校加强学科建设与人才培养3. 推动科研机构加速产研融合与技术发展4. 助力政府实践产业落地和建设数据创新生态附录CONTENTS03040808091010151717181923232425262829323334353839424547495153数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛驱动下的数字化创新生态。在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。高亮看点关注数据竞赛白皮书下篇办好一场竞赛的实操手册,看点三深度内容尽在掌握。看点一:1000+场数据竞赛,催生数据智能时代全球性政、企、学、研、资各界联动新常态 2014 年至今,全球范围内的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中;吸引约36万支团队、120万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖 33 个行业应用场景; 1997年,享誉全球的国际顶级学术会议KDD推出KDD Cup,开启了数据竞赛的新模式,20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。看点二:15 个案例特写,看懂数据竞赛为何成为数字化创新的有效手段 以赛题承载应用场景,在紧凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽 ,助力数据创新生态建设和产业落地。看点三:100+场专业赛事服务经验,一流竞赛平台开源数据竞赛管理方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金 并非竞赛核心诉求,从专业性赛题、科学性评审,到协作式工具、精细化运营,组织一场优质的数据竞赛颇有挑战; 竞赛全生命周期都面临着来自参赛选手和主办方的双重审视,既要能够通过打造良好的参赛体验高度激发数据科学人才的能动性和生产力,又要通过专业的数据科学服务能力和精细的运营流程充分满足赛事主办方贯穿赛事全程的多元诉求; 保障赛事功能,开创数据科学研发全新协作模式数据科学协作工具成为数据时代最重要的基础设施之一。02 数据竞赛,数字化创新的新模式数据竞赛白皮书下篇办好一场竞赛的实操手册数据竞赛白皮书上篇1000 场竞赛的深度分析数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了数据竞赛这一载体,以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术会议 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)推出的 KDD Cup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于 2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联网时代诞生的独角兽,亦不乏Walmart、Airbus、Genentech等声名日久的传统行业领头羊。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。数据竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收获丰厚奖金”的公关活动。对双方而言,数据竞赛已经成为了数字化转型的“云端实验室”。赛事主办方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据+算力+人才+算法”的价值闭环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验,在与众多高手的交流切磋中不断成长。基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“Heywhale”携旗下中国领先的第三方数据竞赛平台“和鲸社区(即Kesci)”,联合AWS,共同发布数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最佳实践。序第一章数据 竞赛,数字化创新的新模式一、竞赛规模与资源投入趋势二、赛题应用场景与技术类型分布三、全球数据竞 赛发展历 程四、数据竞赛外生环境趋势图 1-1 数据竞赛生态版图数据竞赛,数字化创新的新模式 05数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。2014年至今,全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已通过 12 个数据竞赛平台发布共计逾 400 场数据竞赛,占比近半,且年均增长率高达 108.8%。 236家 企业、政务 部门、高校和科研机构作为赛事主办方参与其中 ;吸引约36 万支团队 、 120 万人次 参赛;奖金规模合计高达 2.8 亿元 人民币,赛题覆盖金融、交通出行、安防、航空天文和生物科技等 33个应用场景 。利用数据竞赛探索数字化创新与前沿技术的落地应用方向正在成为数据科学生态必不可缺的一环。通过对这 400 场数据竞赛的深入分析,我们试图从更全面、更深入的角度理解中国市场的数据竞赛生态。数据来源:和鲸科技(heywhale)制作。引用请注明出处。图 1-2 数据竞赛赛题数量与参赛团队变化趋势在过去数年间,数据竞赛赛题数量增势日渐强劲,表明利用数据进行产业赋能的创新探索需求不断增加,越来越多的组织机构以拥抱人工智能的开放心态积极探索数字化转型的更多可能。在被称为大数据元年的2015年,先进技术带来的经济效应规模化显现,在技术赋能产业的进程中,“由社会成果广泛参与、公开透明、自下而上、分权决策”的社会创新作为全新组织范式日渐走进人们的视野,数据竞赛作为其重要表现形式之一,开始作为探索潜在应用场景、甚至解决实际问题的有效手段 被接受 。与此同时,政府及事业单位需要依赖技术进行数据化驱动的社会数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。01,00010,00001,00010,000100,0000100,0001,000,00010,000,000030治理与城市优化。进入2017、2018年,在越来越多企业投入数据竞赛的同时,由高校、科研机构与政府单位主导的数据竞赛数最也保持着较强的涨幅、从科研探索,到商业场景应用,再到社会治理,数据竞赛赛题内容可谓百花齐放。而参赛人数的指数级增长也释放出两方面的信号: 其一,不仅限于计算机和数学背景,越来越多的不同背景的人才开始接触数据科学;其二,伴随着技术的革新,产业对于数据科学应用价值的认知和兴趣不断强化。06 数据竞赛,数字化创新的新模式通过这项赛事的成功举办,南京市人民政府向外界清晰地传达:南京市人民政府对于数据科学及人工智能产业的支持力度是空前的,通过提供坚实有力的扶持政策和对接优质资本,南京有能力、有魄力、有信心把握人工智能时代的发展趋势,以更懂科技企业的方式聚集数据科学人才、提供配套设施服务、助推数据科学全面发展。案例特写:2018 全球(南京)人工智能应用大赛社会各界全面联动的大型赛事赛事主办方: 南京市人民政府 作为国内顶级规模的数据科学赛事,2018 全球(南京)人工智能应用大赛推动了产、政、学、研各界的全面联合,因其社会价值之高、调动资源之多、影响范围之广引发了各界的高度关注。南京市人民政府联合 2 家科研机构、3 所高校、15 个企业共同发布了覆盖“智能制造”、“智能驾驶”、“智能生活”、“智能医疗”、“智能城市”五大产业应用领域的 20 道赛题,设立 600 万元奖金池及 20 亿元人工智能产业风险投资基金,吸引了近 3000 名数据科学人才的参与。扫描上方二维码了解更多赛事详情2018 年 5-9 月,和鲸承办由南京市政府主导的 2018 全球(南京)人工智能应用大赛,联合产、政、学、研、资各界机构组织针对五大产业应用领域方向共计发布 20 道并行赛题,所有赛题从解决产业实际困难出发,充分体现 AI 技术在各行各业的深度应用赋能价值,一批提高生产效率甚至改变商业模式的解决方案,从本次大赛中涌现。五大领域 20 道赛题,覆盖社会生产重要领域数据竞赛,数字化创新的新模式 071M2M3M4M5M1K0 2K 3K 4K 5K 6K 7K 8K 9K 10K物流气象高校服务通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全军工业法律海洋工具教育体育交通出行金融商业开放应用文娱传媒人工智能电子商务工业制造业新零售医疗健康人文服务及社会治理物流气象高校服务网络安全通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全法律军工业安防海洋体育教育工具5M10M15M20M25M30M35M40M45M50M55M60M5K0 10K 15K 20K 25K 30K 35K 40K 45K 50K交通出行电子商务工业制造业医疗健康安防人文服务及社会治理网络安全新零售金融商业开放应用文娱传媒人工智能图 1-3 各行业赛题的奖金投入与参与规模一、竞赛规模与资源投入趋势数据竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科学投入力度和各类技术领域内的人才结构。 自 2014 年以来,无论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势,而人均奖金也呈同步上升态势 。由此可见各行各业在数据竞赛中的投入热情和力度不断高涨。具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势: 交通出行、工业制造、医疗健康 是目前数据竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。1. 奖金投入意愿攀升,参与规模稳增 奖金支付能力最高、数据科学人才热度最高的行业交通出行; 奖金支付能力较高、数据科学人才热度一般的行业工业制造、医疗健康; 奖金支付能力较低、数据科学人才热度较高的行业金融、文娱传媒、电子商务; 奖金支付能力较低、数据科学人才热度较低的行业气象、能源、高校服务。数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。 电子商务、社会公共服务、文娱传媒 等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。 安防、能源、气象 等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正向相关: 越高的奖金意味着技术难度越大,丰厚的激励有望推动尖端人才投身前沿问题的解决 。其中,计算机视觉类赛题的奖金水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规模庞大。08 数据竞赛,数字化创新的新模式2. 数据红利可期,数据投入姿态积极数据竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来吸引优质人才的加入,越来越多的主办方也 在数据安全与法规限定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的养料 。百度作为积极投身数据竞赛的先锋,已基于百度知道的真实问答文档建设了迄今为止 规模最大的中文公开领域阅读理解数据集DuReader,并完成了对总量类型、问答实体和观点等信息维度的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文档及42万个人工撰写的优质答案,并提供开源基线系统,从而为各行各业在自然语言处理领域的创新探索奠定了坚实基础 。由中科院打造的 CASIA-WebFace 数据集包含了 10575 名个人的494414 张图像,是 训练人脸识别模型的重要素材 。此外,在由百度主导的“智能问答”和“综艺节目精彩片段预测”两场数据竞赛中,百度联合汽车大师和爱奇艺分别提供了汽车大师平台上的 11 万条真实问答数据、以及总长约 1200 小时的1470 条爱奇艺电视综艺视频。这些数据对最终优质成果的诞生发挥了至关重要的作用。携程将数据竞赛作为推动内外协同创新、解决实际业务问题的重要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒店销量概率预测、客户转化概率预测、航班延误预测、渠道销售能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果,在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为竞赛导入了海量真实业务数据 ,其信息涵盖酒店基础数据、历史订单数据、价格波动数据、竞品排名数据、历史航班动态起降数据及航班延误影响因素相关数据等。科研机构在日常研究工作中积累了大量数据,通过数据竞赛的开放式创新环境闭合的数据库在一定条件下进行开源,也无疑能够进一步促进这些数据的价值释放。率先将医疗大数据Datathon模式引进国内的解放军总医院,在 2018 年的 Datathon 中就曾发布并应用了 2015-2017年间在解放军总医院急诊科就诊数据库,以其作为Datathon竞赛的基础资源,通过跨学科、跨领域的交叉合作,真正推动了医疗大数据应用从理念到落地的探索 。政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数据的创新应用场景也成为了近年来各级政务部门的重要任务。越来越多的 政务部门通过数据竞赛开源数据红利,探索创新机遇 。举例来说,在由广西壮族自治区人民政府发起的全球数据智能大赛(2019)中,2015-2018年间广西 81 县十余个维度的气象和早、晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构建智能气象预测系统和精准预测水稻产量。数据竞赛,数字化创新的新模式 09
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642