旷视COCO获奖团队亲述：我们是如何两年拿下7个冠军的

IT思维 2018-09-14 13:29:10 0 业界资讯 | AI, 技术, 机器视觉

公众号/量子位

郭一璞假装发自慕尼黑

量子位报道 | 公众号 QbitAI

即将年满7岁的旷视，最近给自己送了一个生日礼物，计算机视觉顶级赛事MS COCO的Detection（并列）、Panoptic、Keypoints和Mapillary Panoptic四个项目的冠军，继去年三冠一亚之后，连续两年成为该赛事上全球表现最佳的公司。

量子位在出结果后采访到了旷视科技参加COCO比赛的团队。

今年COCO很艰难

今年带队的除了旷视科技首席科学家、研究院院长孙剑之外，还有去年的冠军领队、旷视科技研究院Detection组负责人俞刚博士，另外还有十余位同学，大部分是实习生。

从5月中旬启动比赛，到8月结束，旷视COCO小分队从确定团队分工、定方向到逐步优化，历时三个月，蝉联冠军王。

不过，聊到这四个冠军的成就，俞刚博士似乎并没有特别激动，他对今年的比赛有两个字的评价：艰难。

团队成员华中科技大学博士在读的余昌黔说，艰难到个别时候晚上十点睡下，两三点又要从床上爬起来，再做一波实验。

不仅艰难，旷视的一个遗憾是算法没有达到内部定下的量化目标。

这场景很熟悉，让人想起学霸同学声称自己考砸了，结果分数出来是年级第一的故事。

去年夺冠后，旷视把目标定得过高了，在实际比赛中并没有预料中那么好。旷视COCO团队实习生、北航研二在读的殷斌一同学对量子位说，在他参加的项目里，团队自己拆分出验证集测试，得分超过80，但实际挑战集却只有76分，让大家不得不费尽功夫，0.1分0.1分的向上提。

至于如此艰难的原因，一方面是COCO“走不动了”，达到了一个饱和状态；二是算法上面还有比较长的路要走，需要更多极致的创新来突破现有的技术水平。

好在虽然艰难，但这并不妨碍他们拿到四个项目的冠军。

自己的数据集

COCO数据集因为数据难度以及标注误差，导致算法越来越饱和了。旷视自己内部开始研究检测任务的后续方向，建立了两个内部数据集”]]”>COCO数据集因为数据难度以及标注误差，导致算法越来越饱和了。旷视自己内部开始研究检测任务的后续方向，建立了两个内部数据集。

俞刚博士介绍了旷视的两个和COCO有关的数据集：

第一个是CrowdHuman，包含大量多人重叠照片，专门针对COCO比赛中人人人人人人人人山人海的检测。

这个数据集已经开源，需要的朋友可以取链接：
http://www.crowdhuman.org/

第二个数据集目前还在搜集中，旷视内部的名字叫做COCO++，缘起于COCO的“指鹿为马”现象，因为COCO只有80个标签，难以覆盖世间万物，所以比如当它见到一头鹿的时候，因为没有鹿这个标签，只好标注成马。因此，旷视准备做COCO++这样一个数据集，希望能够覆盖世界上99%的物体，减少出现这类差错的机会。

COCO：中国队对战中国队？

关于COCO的另外一个话题就是：包括旷视、商汤、北邮、滴滴等在内，拿冠军的都是中国队，全无谷歌、Facebook等美国大公司的身影。

这一点俞刚博士觉得与国内的AI发展氛围和创业公司特点分不开。

一方面国内AI热潮正处风口浪尖，发展氛围更好，投入的资源人力足够多，政策也支持，国内研究AI的热情空前高涨，“从人才潜力这个角度讲，中国不会比欧美差，我们需要更好的环境、更好的团队氛围来释放人才潜力，这也是旷视科技研究院一直在做的事。”

另一方面则得益于国内创业公司的资源倾斜。大公司业务广，牵扯多，在COCO比赛这类项目上，单点投入不够集中；而创业公司单点投入更集中，一旦决定参加COCO，团队力往一处使，比赛过程更高效，成绩自然会比大公司要好。

得胜武器：人才培养

COCO这类比赛，最离不开的是人才。

俞刚博士也这么认为，他把旷视今年拿下四个冠军归因于对人才的培养。

一方面，旷视内部一直在培养新人，人才不断档，才能支撑比赛阵容；

另一方面，旷视也一直有足够的技术积累，每天刷arXiv分享优质论文是技术团队内部的必修课，并且需要分析提炼论文中值得学习的内容，而非简单的复制别人开源的成果，让团队整体也有提升。

或者说，COCO比赛对旷视的价值就在于带新人练级。

虽然去年的夺冠神器Brain++已经内部应用，但COCO成绩离商业落地还没有那么近。因此，参与COCO的团队也是实习生为主，就像腾讯互娱的校招新人会自己做小游戏一样，比赛对旷视更重要的是人才培养，是旷视人才战略的一部分。

所以，COCO比赛中，他们采取了以老带新的方式来培养团队。经验丰富的研究员指导年轻研究员，传授经验；年轻人也可以在比赛的过程中获得自己的经验体会，提升认识和理解，还可以有新的成果出现。

殷斌一同学对此有深刻的感悟。

在学校的时候，殷斌一苦于学校的计算、数据集等资源限制，渴望更好的平台。

COCO开始前两个月，还是北航研一学生的殷斌一刚刚来到旷视实习，彼时的他，刚刚开始自己在深度学习、计算机视觉领域的学术研究生涯，虽然擅长代码，本科时还拿过ACM区域赛银牌，但对算法一窍不通。

在旷视团队参与COCO的过程中，殷斌一逐渐搞清楚了数据、模型、测试等过程，明白了从头到尾的整体方法逻辑。现在，他已经能够自己独立跑程序、训练模型，完成整一套过程了。

而另一位团队成员余昌黔已经在旷视实习一年多了，开学季这几天，他刚刚在华中科技大学开始自己的博士生涯。

在COCO的workshop中，他不仅见到了敬仰已久的大神Ross Girshick和何恺明，还上台演讲，被主办方称赞比人标的ground-truth结果都好，收获了在场全世界各国参赛者的一片欢呼。

△ Ross Girshick 为旷视团队颁奖

研究&落地双管齐下

在旷视内部，研究和落地同步进行着。

落地做实用，比如在手机端运行AI程序，限制在手机的硬件水平之上，模型更小，对用户体验追求更高；

而研究则是探求物理极限，可以尽量用大模型，用大量硬件。

参加比赛是以老带新，用最快速度培养出更多新秀去做产品；

而专做产品的人也要参与研究，把眼界放长远，提升自己的判断能力，培养自己对于技术方向的想法，而不仅仅局限于眼前，才能为自己谋取更高的成长天花板。

这是俞刚博士分享的旷视人才观。

这一点也反映在了COCO团队的组建上。

旷视在组建COCO参赛团队时，先根据新人的兴趣点、爱好特长来分组，如果缺人，再去协调其他团队。之后COCO的成果也会反映在商业落地上，去年的夺冠秘籍Brain++就已经在内部应用了。

能用大量商业资源推动研究，同时研究成果能迅速反哺实际应用，这真是计算机科学家们最好的时代。

实习生：博士，硕士，甚至高中生

旷视的COCO队员余昌黔和殷斌一都是实习生。

殷斌一此前也有在其他科技公司实习的经历，不过并非在研究部门，而是实际商业落地部门，主要工作是写业务代码，没有做研究的机会，“搬砖”的意味更强一些。

而在旷视，能享受充足的研究资源，随时随地请教大牛，在前辈们的push下迅速成长，是他在别处无法获得的巨大收获。

时至今日，已经成为COCO冠军团队成员的他在学校依然行事低调，还没有把这个在校外获得的成就告诉导师和同学。

余昌黔则已经硕士毕业，对科研有着更深一层的认识。他说，旷视科技研究院满足了他对理想研究院的所有期望：团队氛围非常好，周围大牛云集，工作也很自由。

并且旷视研究院这类企业研究院的方向也与读硕士、博士也不冲突：都是为了得到优秀的研究成果、能公开发表，企业研究院还有更好的硬件与数据资源。

前面两位是硕士和博士，但丝毫不过夸张的是，旷视还有过不下十位正在读高中的实习生。

第一位高中实习生的名字叫做范浩强，当时他在人大附中读高三，因为信息学奥赛的优异成绩已经被保送到了清华，而当时他的信息学教练正是旷视科技CTO唐文斌。

欣赏范浩强才华的唐文斌对他发出了邀约：

“我要去开一家公司，叫旷视科技，你要不要来？”

就这样，高中生范浩强成为了旷视的前10号员工之一。清华本科毕业之后，他终于“转正”成了正式员工。

有了一个范浩强，就会有更多高中生，他们以学长带学弟的方式，纷纷来到旷视实习（很遗憾，暂未听说有学妹）。

俞刚博士介绍，来旷视实习的高中生各地都有，他们都不需要高考，或是已经参加竞赛保送了，与其高三无所事事，不如来学点东西；或是准备申请国外的本科，实习中如果有研究成果，也更容易的拿到国外高校的offer。

在旷视呆过的实习生们，转正率非常高。如果继续升学深造，大多数也能去不错的学校，迄今为止已经有三位实习生去了斯坦福。

不过，虽然前面提到的几位实习生都是名校背景，但旷视也并不是只要名校生。

俞刚博士说，主要还是看求职者的闪光点，比如是否擅长代码，学习新知识的能力是否优秀等。有这些亮点，便值得加以培养。

One More Thing

俞刚博士还透露，今年旷视的冠军模型会在迁移到TensorFlow之后开源，预计会是今年年底前后。

IT思维

IT思维（itsiwei.com）是互联网首个定位在科技与电商“思维”韬略的平台，我们时刻关注互联网电商行业新动向；诚邀行业资深从业者加入“思维客家族”！

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%