资源描述
of数据科学协同平台序第三章 数据竞赛组织不易,需要克服专业壁垒一、对竞赛复杂性的调研结果1. 主办方对于专业性和项目效益的要求2. 参赛者对于严谨性和公平性的要求二、数据竞赛的运营复杂度详解1. 数据竞赛需要综合性的专业能力支撑2. 保障赛事相关方体验需要面面俱到第四章 组织好一场数据竞赛,重在能力建设一、优质数据竞赛的定义二、数据竞赛的最佳实践1. 数据科学项目管理,支撑赛事成果有效性2. 数据竞赛运营管理,保障双边赛事体验 第五章 数据科学驱动的创新生态展望附录CONTENTS030405050609091216171919273841数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛驱动下的数字化创新生态。在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。高亮看点02 数据竞赛,数字化创新的新模式关注数据竞赛白皮书上篇,看点一、二深度内容尽在掌握。数据竞赛白皮书上篇1000 场竞赛的深度分析看点一:1000+场数据竞赛,催生数据智能时代全球性政、企、学、研、资各界联动新常态 2014 年至今,全球范围内的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中;吸引约36万支团队、120万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖 33 个行业应用场景; 1997年,享誉全球的国际顶级学术会议KDD推出KDD Cup,开启了数据竞赛的新模式,20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。看点二:15 个案例特写,看懂数据竞赛为何成为数字化创新的有效手段 以赛题承载应用场景,在紧凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽 ,助力数据创新生态建设和产业落地。数据竞赛白皮书下篇办好一场竞赛的实操手册看点三:100+场专业赛事服务经验,一流竞赛平台开源数据竞赛管理方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金并非竞赛核心诉求,从专业性赛题、科学性评审,到协作工具、精细运营,组织一场优质的数据竞赛颇有挑战; 竞赛的生命周期面临着来自参赛选手和主办方的双重考验,需要能够通过打造良好的参赛体验,激发数据科学人才的能动性和生产力,并通过专业的数据科学服务能力和运营流程充分满足数据竞赛的多元诉求; 保障赛事效率和质量,开创数据科学研发的新模式数据科学协作工具,成为开放式数据竞赛的重要的基础设施。数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了数据竞赛这一载体,以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术会议KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)推出的 KDD Cup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联网时代诞生的独角兽,亦不乏 Walmart、Airbus、Genentech 等声名日久的传统行业领头羊。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。数据竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收获丰厚奖金”的公关活动。对双方而言,数据竞赛已经成为了数字化转型的”云端实验室“。赛事主办方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据 + 算力 + 人才 + 算法”的价值闭环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验,在与众多高手的交流切磋中不断成长。基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“ Heywhale. com”携旗下中国领先的第三方数据竞赛平台“和鲸社区(即 Kesci)”,联合 AWS,共同发布数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛 推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最佳实践。序第三章数据竞赛组织不易需要克服专业壁垒一、对竞赛复杂性的调研结果二、数据竞赛的运营复杂度详解一、对竞赛复杂性的调研结果调研发现,在多数的参赛选手心目中,数据竞赛的质量取决于三个要素:主办方的品牌知名度、赛事激励的丰厚程度、竞赛是否提供真实的数据。这些是吸引优质参赛选手,促进产出更高水平成果的关键要素。但是,这三点仍不足以保障优质竞赛的完成。数据竞赛牵涉到1. 主办方对竞赛有高预期应用场景、数据、算力、算法和人才 等方方面面的复杂要素,包含了 数据科学研发过程中的主要环节 ,从赛前筹备到赛中运营,再到赛后跟进,从应用场景挖掘到配套数据处理,从计算环境搭建到算法应用,从参赛选手管理到成果测评, 每个环节都需要专业能力和精细运营的支撑 。2018 Kinetics 视频行为分类比赛数据失误导致重大竞赛事故2018 年,Kinetics 视频行为分类比赛遭遇了赛事组织的多次事故。起因在于赛事运营方发布的训练集数据中错误地混入了测试集数据。一周后,赛事运营方重新发布的数据集再度出现重大疏忽所有数据标签被泄漏,意味着能够验证模型效果的答案遭到提前揭示,选手无须花费精力训练可靠的模型。参赛选手向赛事运营方发送邮件反应数据集的问题,也未得到及时的回应和解决。赛事的公平性和参赛团队的积极性遭到了破坏,同时引起了舆论争议,赛事被迫延期。扫描上方二维码了解更多赛事详情不同的赛事主办方举办数据竞赛的初衷各有侧重,其共同的诉求是赛事进程平稳顺畅、舆论评价正面积极、参赛选手能够准确理解赛题、参赛选手技术能力出色、赛事成果具有优越表现。这需要不同环节的专业服务能力紧密配合,促成赛事实现最好的效果。正是意识到赛事筹办和组织的复杂性,主办方存在多方面的顾虑,担心对于数据竞赛的投入无法获取预期回报,甚至损伤品牌形象。数据竞赛还是需要依赖专业的办赛平台,因为数据竞赛筹办区别于普通的活动组织,企业缺乏专业的的赛事运营人员和赛题设计人员。上海电信 互联网部产品技术研发中心副经理 葛正荣术业有专攻,优秀的企业更懂得互补 + 合作 = 共赢的价值。同盾除了不断锻造自身技术实力外,也积极推行在产学研领域的企业价值,创办专业的赛事、选拔潜在的专业科技人才,这需要专业的赛事平台参与其中,从学术性与商业性相融合的赛题设计、到赛制中的数据质量与敏感把控,以及兼顾数据安全与赛题可解性,都需要更加专业的、垂直的竞赛平台来合作共建。同时,专业的竞赛平台拥有过硬的技术实力,可以勘验参赛选手的成果。在整个赛事的宣传节奏把控上,也能够创造出丰富的内容及足够触达到目标群体的有效渠道。同盾大学运营人员 娜娜场景的挖掘、算法的应用与迭代、产学研的紧密融合,共同孵化出数字化创新的新模式数据竞赛。数据竞赛白皮书上篇集中展现了不同的组织机构,如何以数据竞赛为支点,探索数字化创新之路。运用科学的管理流程办好一场有价值的数据竞赛,是赛事主办方和参与选手的共同诉求,正如第一届世界黑客大会的发起者Kevin Kelly 所说:“在过去 200 年里,我们最伟大的发明恰恰是科学流程自身”。过去五年间,全球1000余场数据竞赛经历着模式的迭代与流程的优化,有全新应用场景的不断开拓,又有前沿算法的持续升级。作为数据科学研发的演兵场,如何合理地制定赛题、管控赛事流程与机制、实现算法成果的应用是发挥数据竞赛价值的关键点。基于上篇内容,数据竞赛白皮书下篇致力于阐释数据竞赛价值落地的复杂要素,分享办好数据竞赛的方法。数据竞赛组织不易,需要克服专业壁垒 05从参赛频率的维度来看: 竞赛新手:关心自己是否值得将精力投入到竞赛中,获得经验与成长,认为优质的数据竞赛首先应该具备科学合理的赛题、数据和测评办法,竞赛页面的文字描述需要清晰、专业、合理。 竞赛常客:在赛题与数据相匹配的基准要求被满足后,则更关心完善的赛制、自动测评等功能点能够保障良好的参赛体验。 竞赛老手:奖金或工作机会等实质性激励是他们首要考虑因素,且激励也需要以合理、可解的赛题为基础;此外,他们也会倾向于投入精力加入前沿性难题的探索。图 3-1 不同参赛频率的调研对象判断数据竞赛是否优质的考虑因素排序数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.013.012.015.010.09.014.08.04.05.02.011.03.01.07.06.011.014.01.013.07.05.015.012.03.07.010.08.09.06.02.04.02. 参赛者对竞赛有严要求选手的技术潜力的释放程度和技术能力的发挥水平,高度依赖于赛事全生命周期的技术支撑和运营管理。数据竞赛参赛者调研的结果显示: 组织“优质的数据竞赛”需要兼备专业的技术储备和丰富的项目管理经验。06 数据竞赛组织不易,需要克服专业壁垒数据竞赛组织不易,需要克服专业壁垒 07图 3-2 不同参赛频率的调研对象认为影响数据竞赛质量最重要的因素数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。从参赛成绩的维度来看: 青铜玩家:除了要求题意表达通畅清晰外,希望公平的赛制和完善的测评功能能够保障竞赛的锻炼价值。 白银玩家:最关心赛题与数据匹配程度;进而关心有科学的测评算法合理评估选手的表现;而为了更有效率地展现实力,白银玩家也要求优质的数据竞赛配套功能全面、性能优越的算法开发工具和计算资源。 黄金玩家:对自己的能力充满自信,因此对于优质数据竞赛的定义简单直接:不浪费时间、不枉费付出,即赛题、数据、评审办法科学合理,且有敏捷完善的产品功能予以支撑,从而保证其精力最大程度投入解题本身;同时要有与自己的开发成果相般配的丰厚回报;水平一流的黄金玩家比起其他人也更愿意投身前沿课题的研发。图 3-3 不同参赛成绩水平的调研对象判断数据竞赛是否优质的考虑因素排序数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.014.012.011.06.03.013.015.08.01.04.02.010.07.09.05.012.014.02.07.06.013.016.015.011.05.09.010.01.08.04.03.0图 3-4 不同参赛成绩水平的调研对象认为影响数据竞赛质量最重要的因素数据来源:和鲸科技(heywhale)经调研统计得出。引用请注明出处。可以看出,调研对象虽然拥有不同程度的参赛经验和成绩表现,但对于数据竞赛从赛题、评审到工具、运营均拥有复杂而严苛的要求竞赛内容富有实际意义、竞赛服务专业周到。选手需求的复杂性和多元性,对于赛事的主办方和赛事平台,也提出了严格而专业的要求。08 数据竞赛组织不易,需要克服专业壁垒
展开阅读全文