公众号/AI前线(ai-front)
编译 | 核子可乐、钰莹
最新论文指出,AI 行业正在残酷压榨刚刚兴起的全球零工经济体系。
现代人工智能依赖各种算法处理规模达数百万的示例、图像或文本素材。但在此之前,首先需要由工作人员在图片数据集中手动标记出对象,再将标记完成的大量图像交付给算法以学习模式,掌握如何准确识别对象。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为 AI 经济体系中的重要组成部分。
AI 数据标注大量依赖廉价外包
在数据标注行业流行着一句话,“有多少智能,就有多少人工”。数据标注是人工智能发展中至关重要的一环,却常常容易被人忽视。
相对而言,数据标注是人工智能领域“入门级”的工种,单从工作流程看,其技术含量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。低门槛吸引了众多农民、学生、残疾人群体加入到数据标注大军中,在我国河南、河北、贵州、山西等地的四五线城市还出现了一些特色的“数据标注村”。
不止中国,向劳动力更充足、成本更低的地方迁移也是全球数据标注行业的发展趋势。印度涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。
近日,普林斯顿大学、康奈尔大学、蒙特利尔大学以及美国国家统计科学研究院共同发表的最新论文指出,这部分手动标记工作大多在美国及其他西方国家之外完成,并对全球各地的工人施以残酷剥削。
以 Sama(原 Samasource)、Mighty AI 以及 Scale AI 等数据标记公司为例,他们主要使用 来自撒哈拉以南非洲以及东南亚地区的劳动力,每天支付给员工的薪酬仅为 8 美元(折合成人民币为 51.6 元)。 但与此同时,这些企业每年却能赚取数千万美元的巨额收益。
再来看在线零工平台 Amazon Mechanical Turk,世界各地的任何人都能够在此登录并执行简单任务,快速赚取相应收益。在 2019 年之前,Mechanical Turk 仅支持使用美国本地银行账户收付款,就是说在该平台上工作、但无法使用美国银行业务的员工根本拿不到应得的收入,而只能用自己的劳动换取 Amazon 商城礼品卡。
根据论文调查,ImageNet 已经成为人工智能历史上最具影响力的数据集之一,但其实现基础依靠的却是时薪只有区区 2 美元的零工。
此外,由于待标记数据已经由美国或其他西方国家的开发者及程序员进行过初筛,因此外部标记人员的介入并不能在数据集中充分体现全球文化背景。
论文提到,“同样是拍摄自婚礼现场的新郎照片,算法识别美国新郎的准确率就远远高于对埃塞俄比亚或巴基斯坦的新郎图像分类水平。虽然这些地区有很多工人都在为 AI 系统默默做出贡献,但系统本身对这些代表性较低的群体仍存在严重偏见。他们的努力付出,并不能直接令所处本地社群受益。”
研究人员们还写道,应对这方面问题的潜在解决方案可能是将数据标记人员真正纳入到 AI 开发流程当中。在破除毫无话语权的零工身份之后,工人们有望得到更公平的报酬,并凭借自己的洞见与专业知识解决数据收集过程中的种种差异,最终提高算法产品的整体准确率。
论文还提到 Masakhane,一家致力于通过人工智能技术保护非洲语言的组织。作为公平 AI 的典型案例,Masakhane 不会为 AI 研究人员特别创建数据,而是建立起一个扎根于非洲大陆、汇聚数据标记 – 技术研究 – 算法构建人才的整体社区。
该组织在官方网站上写道,“我们要做的不仅仅是让非洲民众参与到数据生产或消费当中,而是将需求方、标记方乃至翻译方紧密联系起来。”
论文指出,如果企业决定将数据标记工作纳入业务流程,就应该给标记人员提供内部成长机会。
论文最后建议,“我们应该将 AI 开发视为经济发展的前进之路。这样一项开发活动不该只关注数据标记这类低生产率活动,而应更多强调模型开发 / 部署及研究等高生产率活动。”
机器标注比重提升,但很难取代人工
虽然整个行业已经开始向着机器标注的方向前进,但这很难取代人工。
《2019 年中国人工智能基础数据服务行业白皮书》分析指出,2010-2016 年为数据服务行业的“初生期”,早期数据标注需求激增,加之入行门槛低,涌入了大量玩家,鱼龙混杂。自 2017 年以来,伴随着 AI 深入落地到各个应用场景中,数据标注行业了进入成长期,上层应用端的厂商对数据标注质的要求不断提高,如自动驾驶、运动图像、计算机视觉等领域的数据标注难度很高。
行业格局渐渐清晰,马太效应明显。据了解,国内从事数据标注业务公司 / 团队约有几百家,其中独立做整个数据质量服务的约百余家,能够提供数据采标服务一体化的有几十家,能够提供高标准基础数据服务的仅有十几家。现阶段,下游 AI 算法研发单位多将业务分流给不同数据服务公司加之数据标注相关标准待完善,该行业还没有出现大的巨头公司。
这是一个尚未饱和的市场,同样,这也意味着巨大的发展空间。数据标注行业已经开始进入到人机协作的阶段,数据标注市场需求量仍旧很大,需要更加专业的人及高效的机器协助,机器标注所占的比重会不断提升,AI 技术与数据互补,通过 AI 技术提升数据效率,数据反过来服务于技术。
为降低人工成本,提高效率,不少互联网技术公司及第三方数据服务商在开发自己的标注工具。2019 年 10 月,Google 发布了用于完整图像标注的人机协作接口 Fluid Annotation,利用它标注图像中每个对象和背景区域的类标签与轮廓,可将标注数据集的创建速度提高三倍。数据标注众包平台也不断涌现,京东众智、百度众测、figure-eight、亚马逊的 Mechanical Turk 等。
未来,机器标注、人工辅助将成为可以预见的发展趋势。这对“数据标注村”来说或许并不是一件好事,但机器很难完全取代人工。现阶段人工标注的准确度要高于机器,机器只能跑出有一定比例的正确结果,更精确的结果仍需要人工来标注,且发挥的作用更关键。此外,在质检环节,人的作用也无可替代,最终的结果要靠精细化的人工校对。
参考链接:
https://onezero.medium.com/the-a-i-industry-is-exploiting-gig-workers-around-the-world-sometimes-for-just-8-a-day-288dcce9c047