未成年工人正在培训人工智能

青少年员工正在接受人工智能培训

就像大多数他这个年龄的孩子一样,15岁的哈桑在网上花了很多时间。在疫情大流行之前,他喜欢和他所在的巴基斯坦旁遮普地区布雷瓦拉的当地孩子们一起踢足球。但是封锁使他变得有些孤僻,沉迷于手机中。“只有在我需要吃东西的时候,我才会出我的房间,”现年18岁的哈桑说,他希望用化名身份,因为他害怕法律行动。但与大多数青少年不同的是,他不是在浏览抖音或者玩游戏。这位高中生在他的童年卧室里为全球人工智能供应链工作,上传和标记数据,为世界上一些最大的AI公司提供算法训练。

用于训练机器学习算法的原始数据首先需经人工标记,并且还需要人工验证以评估其准确性。这些数据标记从简单的事情如识别街灯的图片,或者比较类似的电子商务产品,到非常复杂的任务,比如内容审核,工人们在从互联网各个角落收集的数据中对有害内容进行分类。这些任务通常通过在线众包平台如Toloka外包给零工,哈桑就是从这里开始他的职业生涯的。

一位朋友介绍他到这个网站,承诺能随时随地工作。他发现,在他花费一个小时的劳动中,可以赚到1到2美元,这比当时巴基斯坦的最低工资标准0.26美元高多了。他的妈妈是一名家庭主妇,他爸爸是一个机械工人。“你可以说我来自一个贫困的家庭,”他说。当疫情来袭时,他更需要工作。被限制在家中,上网并且无法安宁,他找到了一些线索,发现Toloka只是冰山一角。

“人工智能被呈现为一个能够做所有事情的神奇盒子,”诺斯东部大学公民智能实验室主任Saiph Savage说。“人们根本不知道幕后有人在工作。”

至少其中一些人工作人员是儿童。平台要求工人年满18岁,但哈桑只需输入一个亲戚的详细信息,并使用相应的支付方式绕过检查——他并不是唯一这么做的人。ENBLE采访了巴基斯坦和肯尼亚的其他三名工人,他们表示自己也是作为未成年人加入平台的,并且发现这种做法很普遍。

“当我还在中学的时候,有很多青少年讨论在线工作以及他们如何使用父母的身份证加入,”一位16岁时在肯尼亚加入Appen的工人说,他要求匿名。放学后,他和他的朋友会上线完成注释任务,通常持续八个小时甚至更长时间。

Appen拒绝提供可归属的评论。

“如果我们怀疑用户违反用户协议,Toloka将进行身份检查,并要求提供身份证照片和用户拿着身份证的照片,”Toloka运营主管Geo Dzhikaev说。

受全球对人工智能的追求驱动,全球数据标记和收集行业预计将在2030年达到171亿美元,根据市场研究和咨询公司Grand View Research的数据。Toloka、Appen、Clickworker、Teemwork.AI和OneForma等众包平台连接着全球南方数百万遥远的零工与硅谷的技术公司。这些平台发布来自他们科技客户的微任务,这些客户包括亚马逊、微软Azure、Salesforce、谷歌、NVIDIA、波音和Adobe。许多平台还与微软自己的数据服务平台Universal Human Relevance System(UHRS)合作。

这些工人主要在东非、委内瑞拉、巴基斯坦、印度和菲律宾工作,但甚至有“难民营工人”,他们标注、评估和生成数据。“工作的性质通常感觉像是数字奴役,但这是为了谋生而必要的,”哈桑说,他现在也为Clickworker和Appen工作。

有时,工人们会被要求上传音频、图片和视频,这些将用于训练人工智能的数据集。工人们通常不知道他们的提交将如何被处理,但这些可能相当个人化:在Clickworker的工作人员任务标签上,一个任务写道:“给我们看你的婴儿/孩子!通过拍摄5张你婴儿/孩子的照片来帮助教育人工智能!”的价格是2欧元(2.15美元)。下一个任务写道:“让你的未成年人(年龄为13-17岁)参与一个有趣的自拍项目!”

有些任务涉及内容审核 – 帮助AI区分无害内容和包含暴力、仇恨言论或成人图像的内容。哈桑在与ENBLE交谈的那天分享了屏幕录像。UHRS的一个任务要求他从一篇文本中识别“操”,“屄”,“鸡巴”和“婊子”。对于Toloka,他被展示了一页又一页部分裸露的身体,包括性感的图片、内衣广告、一尊裸露的雕塑,甚至一幅文艺复兴风格的裸体画。任务是什么呢?区分成人内容和无害内容,帮助算法区分淫秽和可容许的身体。

哈桑回忆起在18岁以下时在UHRS上审核内容,他说这对他的心理健康产生了持续影响。他说内容非常露骨:被援引法庭记录的强奸案件描述;社交媒体帖子上的仇恨言论;文章中的谋杀描述;未成年人的性感图片;成年女性的裸体图片;来自YouTube和TikTok的女性和女孩的成人视频。

哈桑说,巴基斯坦的许多远程工作者都未成年。他代表ENBLE在一个拥有近10,000个UHRS工作者的电报群聊中对96位受访者进行了调查。大约五分之一的人表示他们未满18岁。

来自拉合尔的20岁的阿瓦伊斯以首要条件为其名字不被公开,于16岁时通过Clickworker开始为UHRS工作,此举是为了履行对女朋友的承诺,带她去巴基斯坦北部地区的湛蓝湖泊和雪山。他的父母无法帮他筹钱,所以他转而从事数据工作,使用朋友的身份证进行注册。“这很容易,”他说。

他每天在网站上工作,主要完成微软的“通用场景测试扩展”任务。这涉及测试主页和搜索引擎的准确性。换句话说,选择MSN主页上的“汽车交易”是否会显示汽车图片?在Bing上搜索“猫”是否会显示猫的图片?他每天赚1至3美元,但他觉得这项工作既单调又令人恼火。有时候他要为了1美元工作10个小时,因为他必须做无偿培训才能接触某些任务。即使他通过了培训,可能也没有任务可完成;如果他违反了时间限制,他们会暂停他的账户。然后,在看似毫无预兆的情况下,他被禁止完成最赚钱的任务 – 工人们说这种情况经常发生。封禁可能由许多原因导致,比如给出错误答案、回答过快或给出与其他工人的平均答案模式不符的答案。他总共赚了70美元。这几乎足以带他的高中甜心去旅行,所以阿瓦伊斯永远离开了网站。

Clickworker没有回应置评请求。微软拒绝置评。

“在某些情况下,一旦用户完成培训,已经达到该项目的响应配额,因此任务不再可用,”Dzhikaev说。“但是,如果有其他类似的任务可用,他们将能够参与,而无需进一步培训。”

研究人员表示,他们在全球其他地方的AI行业中发现了未成年工人的证据。耶鲁大学美国研究助理教授朱利安·波萨达研究AI行业中的人力劳动和数据制作,并表示他曾遇到委内瑞拉的未成年工作者加入平台。

绕过年龄检查可以很简单。像Clickworker和Toloka这样宽松的平台只要求工人声明他们超过18岁;而像Remotasks这样安全的平台使用人脸识别技术来将工人与他们的身份证照片进行匹配。但波萨达说即使这样也是有漏洞的,他引用了一个工人的话,他说他只需要将手机对准奶奶的脸就能通过检查。共享一个账户是未成年人获取工作的另一种方式,波萨达说。他发现在一些委内瑞拉家庭中,当父母做饭或跑腿时,孩子们会登录完成任务。他说他遇到过一家有六个家庭成员,最小的只有13岁,他们都声称共享一个账户。波萨达说他们把家当作工厂运营,所以任何时候都有两名家庭成员在电脑前进行数据标注工作。“他们的背会疼,因为他们坐了很久。所以他们会休息一下,然后孩子们上去工作,”他说。

从培训AI的工人到科技巨头之间的物理距离——“互联网的非国土化”,波萨达将其称为——创建了一种隐形的情况,整个劳动力基本上是看不见的,受到不同规则或根本没有规则的管辖。

缺乏对工人的监督甚至可能阻止客户了解工人是否保留他们的收入。印度的一名One Clickworker用户在一家办公室”雇佣”了17名UHRS工人,为他们提供电脑、手机和互联网,以交换一半的收入。尽管他的工人年龄在18到20岁之间,但由于Clickworker缺乏年龄认证要求,他知道有青少年在使用这个平台。

在众包行业的阴暗角落中,使用童工是公开的。

验证码(完全自动化公开图灵测试用于区分计算机和人类)解决服务,其中众包平台支付人类来解决验证码,是AI生态系统中不太被理解的一部分。验证码的目的是区分机器人和人类-最显著的例子是Google的reCaptcha,要求用户在图像中识别物体以进入网站。付费给人们来解决验证码的服务的确切目的对学者们来说仍然是个谜,Posada说。“但我可以确认的是,包括Google的reCaptcha在内的许多公司都使用这些服务来训练AI模型,”他说。“因此,这些工人间接地促进了AI的进步。”

Google没有及时回复发布评论的要求。

根据杭州浙江大学研究人员2019年的一项研究,至少有152个活跃的服务,大多数位于中国,有超过半百万人在地下reCaptcha市场工作。

“每个人都有稳定的工作。无处不在, “一个名为Kolotibablo的服务在其网站上声明。该公司有一个宣传网站专门展示其工人的推荐,其中包括来自世界各地的年轻孩子的照片。其中一位印尼男孩面带微笑向摄像头展示他的11岁生日蛋糕。另一个不到7或8岁的孩子写道:“我很高兴能够为未来增加储蓄。”一位身穿长款Hello Kitty连衣裙的14岁女孩分享了她工作站的照片:一个放在粉色、芭比主题的桌子上的笔记本电脑。

并不是每个被ENBLE采访的工人都对这些平台感到沮丧。在17岁时,Younis Hamdeen的大多数朋友都在做餐馆服务员。但这位巴基斯坦少年选择通过Appen加入UHRS,每天与高中同时使用平台,每月最多可以赚取100美元。他遇到的最有利可图的任务是比较亚马逊上的产品。“我喜欢在这个平台上工作,”现年18岁的Hamdeen说,因为他是以美元支付的-这在巴基斯坦很罕见,所以受益于有利的汇率。

但与科技公司的内部员工相比,这项工作的薪水非常低,而且这项工作的好处流向的是南方向北方-这引起了令人不安的类比。“我们必须考虑到这种工作背后所推动的殖民主义类型,”Civic AI Lab的Savage说。

Hassan最近被一所医学实验室技术学士班录取。这些应用程序仍然是他唯一的收入来源,他从早上8点工作到下午6点,然后再从凌晨2点工作到6点。然而,由于任务需求超过供应,更多的工人加入后,他的收入已经下降到每个月只有100美元。

他抱怨说,UHRS的任务可能只付1美分。即使在更高薪酬的工作中,如在Appen上偶尔的社交媒体任务中,他需要花费大量时间进行无偿研究,这意味着他需要工作五六个小时才能完成一个小时的实时工作,而全部的工作只能赚到2美元,他说。

“这是数字奴役,”Hassan说。