2大型科技公司對注釋數(shù)據(jù)的工作往往保持沉默,因為他們面臨著隱私維權(quán)人士對他們存儲并與外部企業(yè)共享大量個人數(shù)據(jù)的擔憂加劇。
3數(shù)以萬計的上班族和通常在家里工作的獨立承包商,正通過AmazonMechanicalTurk等眾包服務(wù)對數(shù)據(jù)進行注釋和貼標簽,每個標簽只能賺幾分錢。
騰訊科技訊8月17日消息,據(jù)外媒報道,在距離孟加拉灣約60公里遠的印度布巴內(nèi)斯瓦爾市中心,納米塔·普拉丹(NamitaPradhan)坐在辦公桌前,盯著世界另一端某家醫(yī)院錄制的視頻。
視頻顯示了某人結(jié)腸的內(nèi)部,普拉丹正通過視頻尋找息肉,即大腸中可能導(dǎo)致癌癥的小腫塊,看起來有點兒像黏糊糊的痘痘。當她找到息肉時,會用她的電腦鼠標和鍵盤標記,在這個小凸起周圍畫個數(shù)字圓圈。普拉丹沒有接受過專門的醫(yī)學(xué)培訓(xùn),但她正在幫助訓(xùn)練一個人工智能(AI)系統(tǒng),這個系統(tǒng)最終可以完成醫(yī)生的工作。
在一座小型辦公樓的四樓,數(shù)十名印度年輕男女在辦公桌前認真工作,普拉丹就是其中之一。他們接受的訓(xùn)練是對各種數(shù)字圖像進行注釋,從街道場景中的停車標志和行人,再到衛(wèi)星照片中的工廠和油罐車,他們都能精確定位。
科技行業(yè)的大多數(shù)人都會告訴你,AI是他們行業(yè)的未來,這項技術(shù)正在快速發(fā)展,這要歸功于一種叫做機器學(xué)習(xí)的東西。但科技公司的高管很少討論其創(chuàng)建過程中的勞動密集型努力。AI正在向人類學(xué)習(xí),而且是向很多人類學(xué)習(xí)。
但在AI系統(tǒng)能夠?qū)W習(xí)之前,必須有人標記提供給它的數(shù)據(jù)。例如,人類必須精確定位息肉。這項工作對自動駕駛汽車、監(jiān)控系統(tǒng)和自動化醫(yī)療等AI的創(chuàng)造至關(guān)重要。然而,科技公司對這項工作保持沉默,因為他們面臨著隱私維權(quán)人士對他們存儲并與外部企業(yè)共享大量個人數(shù)據(jù)的擔憂加劇。
今年早些時候,資深科技編輯凱德·梅茨(CadeMetz)設(shè)法幫我們了解下AI培訓(xùn)的幕后場景,這是硅谷奇才們很少會同意的。梅茨在印度進行了一次漫步旅行,走訪了五個辦公室,那里的人們正在從事培訓(xùn)AI系統(tǒng)所需的、幾乎沒有終點的重復(fù)工作,所有這些工作都由名為iMerit的公司運營。
有像普拉丹女士這樣的腸道測量師和區(qū)分咳嗽好壞的專家,有語言專家和識別街景標識的專業(yè)人士。什么是行人?那是雙黃線還是虛白線?將來,機器人汽車需要知道其中的區(qū)別。
圖2:iMerit員工必須為他們貼標簽的工作學(xué)習(xí)不同尋常的技能,比如在人體腸道上發(fā)現(xiàn)有問題的息肉
梅茨所看到的場景看起來不太像我們想象中的未來,或者至少是你可能想象的自動化未來。辦公室可以是呼叫中心或支付處理中心,其中一個位于加爾各答西部低收入居民區(qū)中央的一棟舊式公寓樓中,那里擠滿了行人、汽車三輪車和街頭小販。在他參觀過的布巴內(nèi)斯瓦爾以及印度、尼泊爾、菲律賓、東非和美國的其他城市,數(shù)以萬計的上班族都在致力于訓(xùn)練機器。
還有數(shù)萬名工人,也就是通常在家里工作的獨立承包商,也通過AmazonMechanicalTurk等眾包服務(wù)對數(shù)據(jù)進行注釋,這種服務(wù)讓任何人都可以將數(shù)字任務(wù)分配給美國和其他國家的獨立工人,工人們每個標簽?zāi)軖陰追皱X。
總部設(shè)在印度的iMerit,為科技和汽車行業(yè)的許多大牌公司貼數(shù)據(jù)標簽。該公司以保密協(xié)議為由,拒絕公開這些客戶的名字。但該公司最近透露,其在全球九個辦事處的2000多名員工正在為亞馬遜的在線數(shù)據(jù)標簽服務(wù)Sage Maker Ground Truth做出貢獻。之前,它還將微軟列為客戶。
圖3:在印度加爾各答Metiabruz社區(qū)的iMerit辦公室展示的藝術(shù)品
可以肯定的是,AI將來可能會掏空就業(yè)市場。但就目前而言,它正在創(chuàng)造收入相對較低的工作崗位。根據(jù)研究公司Cognilytica的數(shù)據(jù),2018年數(shù)據(jù)標簽市場價值超過5億美元,到2023年將達到12億美元。研究表明,這類工作占建設(shè)AI技術(shù)所花費時間的80%。
這項工作是剝削性的嗎?這取決于你住在哪里,你在做什么。在印度,這是通往中產(chǎn)階級的門票。在美國新奧爾良,這是一份體面的工作。但對于作為獨立承包商的人來說,這往往是一條“不歸路”。
有些技能是必須學(xué)習(xí)的,比如在視頻或醫(yī)學(xué)掃描中發(fā)現(xiàn)疾病的跡象,或者在汽車或樹的圖像周圍畫數(shù)字套索時保持手部穩(wěn)定。在某些情況下,當任務(wù)涉及醫(yī)療視頻、色情或暴力圖像時,工作就會變得可怕。
克里斯蒂·米蘭德(Kristy Milland)說:“當你第一次看到這些東西時,會深深地感到不安。你不想回去工作,你可能不會回去工作了。”米蘭德花了數(shù)年時間在Amazon Mechanical Turk上做數(shù)據(jù)標簽工作,現(xiàn)在已經(jīng)成為代表這項服務(wù)的工人的勞工維權(quán)人士。她稱:“對于我們這些負擔不起失去工作的人來說,你就只能繼續(xù)忍受。”
在去印度之前,梅茨曾試著在眾包服務(wù)上給圖片貼上標簽,在耐克標識周圍畫數(shù)字框,并識別“工作不安全”的圖片。他當時顯得非常笨拙。在開始工作之前,他必須通過測試,但卻接連失敗了三次。給圖像貼上標簽以便人們可以立即在網(wǎng)站上搜索零售商品,更不用說花時間將裸體女性和性玩具的粗糙圖像識別為“NSFW”,并不完全是鼓舞人心的。
AI研究人員希望他們能夠建立能從少量數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)。但在可預(yù)見的未來,人類的勞動依然是必不可少的。微軟的人類學(xué)家瑪麗·格雷(MaryGray)說:“這是個隱藏在技術(shù)之下、不斷擴張的世界,很難將人類排除在循環(huán)之外。”
寺廟之城
圖4:員工離開印度布巴內(nèi)斯瓦爾的iMerit辦公室,這家私人公司是由Radha和DipakBasu創(chuàng)立的,他們都在硅谷工作過很長時間
布巴內(nèi)斯瓦爾又被稱為“寺廟之城”。古老的印度教圣地矗立在城市西南端的路邊市場上,包括可以追溯到公元10世紀的巨型石塔。在市中心,許多街道沒有鋪設(shè)路面。奶牛和野狗在輕便摩托車、小汽車和卡車之間徘徊。
這座城市擁有83萬人口,也是一個快速增長的在線勞動力中心。從寺廟出發(fā)大約15分鐘的車程,在市中心附近一條鋪好路面的路上,一座白色的四層建筑坐落在一堵石墻后面。里面有三個房間,房間里擺滿了長長的桌子,每個都有自己的寬屏電腦顯示屏。這就是普拉丹女士給視頻貼標簽的地方。
24歲的普拉丹在城外長大,并從當?shù)匾凰髮W(xué)獲得了學(xué)位,在接受iMerit的工作之前,她在那里學(xué)習(xí)生物學(xué)和其他學(xué)科。這是她哥哥推薦的工作,他本人此前已經(jīng)在公司工作了。普拉丹在工作日時住在她辦公室附近的一家旅社,每個周末都乘公交車回家。
梅茨曾在今年1月份參觀了普拉丹的辦公室。許多身穿印度傳統(tǒng)服裝、帶著長長金耳環(huán)的女士坐在長長的桌子旁,普拉丹女士穿著一件綠色的長袖襯衫、黑色的褲子和白色的系帶鞋,為美國的一位客戶注釋視頻。在通常每天8小時的工作中,這位害羞的女士觀看了十幾個結(jié)腸鏡檢查視頻,不斷地倒轉(zhuǎn)視頻,以便更近距離地查看各個幀。
每隔一段時間,普拉丹就會找到她想要的東西,她會用數(shù)字“包圍盒”套住它。她畫了數(shù)百個這樣的包圍盒,給息肉和其他疾病征兆貼上標簽,比如血塊和炎癥。
圖5:普拉丹(右二)在布巴內(nèi)斯瓦爾的iMerit辦公室和同事們一起工作
普拉丹的客戶是美國的一家公司,iMerit不允許透露它的名字,它最終將把普拉丹的工作輸入給AI系統(tǒng),這樣它就可以學(xué)會自己識別醫(yī)療狀況。結(jié)腸鏡的主人不一定知道視頻的存在,普拉丹女士也不知道這些視頻是從哪里來的,iMerit也是如此。
普拉丹女士在與一位非實習(xí)醫(yī)生進行為期七天的在線視頻通話時學(xué)會了這項任務(wù)。這位醫(yī)生住在美國加州奧克蘭,幫助培訓(xùn)許多iMerit辦公室的工作人員。但是有些人質(zhì)疑,是否應(yīng)該由經(jīng)驗豐富的醫(yī)生和醫(yī)學(xué)生自己做這類標簽。
威爾·康奈爾醫(yī)學(xué)(Weill Cornell Medicine)和紐約長老會醫(yī)院(New York-Presbyterian)的放射學(xué)家、初創(chuàng)公司MD。ai。的聯(lián)合創(chuàng)始人喬治·施(GeorgeShih)博士說,這項工作需要“有醫(yī)學(xué)背景,并具備解剖學(xué)和病理學(xué)相關(guān)知識的人”。MD。ai。幫助企業(yè)為醫(yī)療保健構(gòu)建AI。
在聊起普拉丹的工作時,她說那“很有趣”,但是很累。至于視頻的圖形化本質(zhì)?她承認:“一開始很惡心,但后來你就習(xí)慣了。”
普拉丹標注的圖像很可怕,但沒有iMerit處理的其他圖像那么可怕。他們的客戶也在建立AI,可以識別和刪除社交網(wǎng)絡(luò)和其他在線服務(wù)上不想要的圖片。這意味著需要標注色情、暴力和其他有害的圖像。
這項工作可能會讓從業(yè)者感到非常不安,iMerit試圖限制他們審查這類內(nèi)容的數(shù)量。在AI初創(chuàng)企業(yè)Clarifai負責數(shù)據(jù)注釋工作的利茲·奧沙利文(LizO‘Sullivan)表示,色情和暴力與更無害的圖片混合在一起,那些貼上可怕標簽的圖片被隔離在不同的房間里,以保護其他員工。奧沙利文曾與iMerit在此類項目上密切合作。
奧沙利文說,其他標簽公司將讓員工對這些圖片進行無限數(shù)量的注釋。她指出:“如果這會導(dǎo)致創(chuàng)傷后應(yīng)激障礙或者更糟情況,我不會感到驚訝。在道德上不受譴責的公司根本不愿意承擔這樣的責任。你必須用其他工作來填充色情和暴力,這樣工人就不必看色情和斬首等內(nèi)容。”
iMerit在一份聲明中表示,它不會強迫員工查看色情或其他攻擊性內(nèi)容,只有在有助于改善監(jiān)控系統(tǒng)的情況下才會承擔這項工作。據(jù)一位公司高管透露,普拉丹和其他貼標員每月的收入在150美元到200美元之間,同時可為iMerit帶來800美元到1000美元的收入。
按照美國的標準,普拉丹的工資低得不像話。但對于她和這些辦公室的其他許多人來說,這大約與數(shù)據(jù)錄入工作的平均工資差不多。盡管工作單調(diào)乏味,但它能幫助付得起公寓的費用。
圖6:iMerit員工普拉森吉特·拜迪亞與妻子派克在西孟加拉邦工作,他很滿意當前的工作
普拉森吉特·拜迪亞(Prasenjit Baidya)在距離印度東海岸、西孟加拉邦最大城市加爾各答約50公里的農(nóng)場長大。他的父母和大家庭仍然住在他兒時的家中,那是19世紀初建造的磚房。他們在周圍的田里種植水稻和向日葵,并在鋪滿屋頂?shù)牡靥荷虾娓煞N子。
他是家里第一個接受大學(xué)教育的人,其中包括電腦課。但是學(xué)校沒有教他那么多知識,教室里平均25個學(xué)生才能分配到一臺電腦。大學(xué)畢業(yè)后,他自學(xué)了計算機技能,當時他報名參加了名為Anudip的非營利組織舉辦的培訓(xùn)課程。這是一位朋友推薦的,每月的費用相當于5美元。
Anudip在印度各地開設(shè)英語和計算機課程,每年培訓(xùn)約22000人。這家機構(gòu)直接將學(xué)生推薦給iMerit,它的創(chuàng)始人在2013年將iMerit作為姐妹業(yè)務(wù)建立起來。通過Anudip,拜迪亞在加爾各答的一家iMerit辦公室找到了工作,他的妻子巴納利·派克(BarnaliPaik)也是如此,她在附近的一個村莊長大。
在過去的六年中,iMerit從Anudip雇傭了超過1600名學(xué)生。目前,該公司的員工總數(shù)約為2500人,其中超過80%的人來自月收入低于150美元的家庭。
iMerit成立于2012年,仍然是一家私人公司,它讓員工執(zhí)行數(shù)字任務(wù),比如轉(zhuǎn)錄音頻文件或識別照片中的物體。全球各地的企業(yè)付錢給公司,而且越來越多地,他們在協(xié)助AI訓(xùn)練方面的工作。與丈夫迪帕克(Dipak)共同創(chuàng)立了Anudip和iMerit的拉達·巴蘇(RadhaBasu)說:“我們想讓低收入背景的人進入科技行業(yè)。”巴蘇和迪帕克在硅谷與科技巨頭思科、惠普等長期合作。
這些工人的平均年齡是24歲。像拜迪亞一樣,他們中的大多數(shù)人來自農(nóng)村。該公司最近在加爾各答西部以穆斯林為主的社區(qū)Metiabruz開設(shè)了一家新的辦事處。在那里,它雇傭的大多是穆斯林婦女,她們的家人不愿意讓她們離開這個熙熙攘攘的地區(qū)。他們沒有被要求看色情圖片或暴力材料。
圖7:iMerit員工在加爾各答Metiabruz的辦公室接受培訓(xùn)
起初,iMerit專注于簡單的任務(wù),為在線零售網(wǎng)站整理產(chǎn)品清單,審查社交媒體上的帖子,但它已經(jīng)轉(zhuǎn)移到了為AI提供支持的工作中。iMerit和類似公司的增長代表著從像Mechanical Turk這樣的眾包服務(wù)的轉(zhuǎn)變。iMerit及其客戶可以更好地控制員工的培訓(xùn)方式和工作完成方式。
拜迪亞現(xiàn)在是iMerit的經(jīng)理,他負責為美國一家大公司為培訓(xùn)無人駕駛汽車所使用的街道場景貼上標簽的工作。他的團隊對數(shù)字照片以及激光雷達捕獲的三維圖像進行分析和標記。他們整天都在汽車、行人、停車標志和電線周圍畫邊界框。
拜迪亞說這份工作可能會很乏味,但它給了他一種他本來可能不會擁有的生活。他和妻子最近在加爾各答買了一套公寓,步行就可到達她工作的iMerit辦公室。拜迪亞說:“我的生活發(fā)生了夢幻般的變化,無論是從我的財務(wù)狀況、個人經(jīng)歷以及英語技能等方面來看,都是如此。我獲得了一個機會!”
聽人們咳嗽
圖8:在iMerit新奧爾良辦公室工作的奧斯卡·卡貝薩斯(OscarCabezas)。當公司開始開發(fā)西班牙語數(shù)字助理時,他加入了公司
印度之行幾周后,梅茨乘坐Uber穿過新奧爾良市中心。大約18個月前,iMerit搬進了Superdome街對面的一棟建筑。美國一家大科技公司需要一種為其家庭數(shù)字助理的西班牙語版本標記數(shù)據(jù)的方法。因此,它將數(shù)據(jù)發(fā)送到新奧爾良的新iMerit辦公室。
2005年卡特里娜颶風過后,數(shù)百名建筑工人和他們的家人搬到新奧爾良幫助重建這座城市,很多人留了下來。許多會說西班牙語的人隨這支新的員工隊伍而來,公司開始雇用他們。
23歲的奧斯卡·卡貝薩斯(Oscar Cabezas)和母親從哥倫比亞搬到了新奧爾良。他的繼父在建筑工地找到了工作,大學(xué)畢業(yè)后,卡貝薩斯加入iMerit,開始開發(fā)西班牙語數(shù)字助理。
他注釋了從推文到餐館評論的所有內(nèi)容,識別人物和地點,并找出含糊不清之處。例如,在危地馬拉,“pisto”意味著錢,但在墨西哥,它意味著啤酒。他所:“每天都有新的項目。”
這個辦公室的工作已擴展到其他領(lǐng)域,為希望將數(shù)據(jù)保留在美國境內(nèi)的企業(yè)提供服務(wù)。出于法律和安全目的,有些項目必須留在美國。
42歲的格倫達·赫爾南德斯(Glenda Hernandez)出生在危地馬拉,她說她懷念以前在數(shù)字助理項目上的工作。她喜歡讀書,曾為大型出版公司在網(wǎng)上評論書籍,這樣她就可以獲得免費的副本,她很享受用西班牙語進行閱讀帶來的有償閱讀機會。
圖9:格倫達·赫爾南德斯(Glenda Hernandez)是新奧爾良iMerit的工作人員,她已經(jīng)學(xué)會了區(qū)分咳嗽好壞之間的區(qū)別
赫爾南德斯對圖像標記或類似于對人們咳嗽的錄音進行注釋的項目不那么感興趣,但這是建立AI的一種方式,可以通過電話識別疾病癥狀。她說:“整天聽咳嗽有點兒讓人覺得惡心!”微軟人類學(xué)家格雷說,這項工作很容易被誤解。整天聽人們咳嗽可能令人惡心,但這也是醫(yī)生度過他們?nèi)兆拥姆绞。她說:“我們不認為這是苦差事。”
赫爾南德斯女士的工作是為了幫助醫(yī)生做好他們的工作,或者也許有一天,取代他們。她以此為榮。在抱怨了這個項目后不久,她指了指辦公室里的同事說:“我們都是咳嗽診斷大師。”
“我受夠了”
圖10:多倫多的克里斯蒂·米蘭德(KristyMilland)在Amazon Mechanical Turk工作了14年,這是一家眾包數(shù)據(jù)注釋任務(wù)的公司,現(xiàn)在她試圖改善從事這些工作的人的工作條件
2005年,克里斯蒂·米蘭德(Kristy Milland)在Amazon Mechanical Turk注冊了她的第一份工作。她當時26歲,和丈夫住在多倫多,丈夫管理著當?shù)氐囊患覀}庫。Amazon Mechanical Turk是一種賺點兒外快的方式。
第一個項目是亞馬遜自己的。米蘭德的筆記本電腦上會彈出三張店面的照片,她會選擇顯示前門的那張。亞馬遜正在建立一個類似谷歌街景(Google Street View)的在線服務(wù),該公司需要幫助挑選最好的照片。
她每點擊一次就能賺0.03美元,或者說大約每分鐘0.18美元。2010年,米蘭德的丈夫失去了工作,Amazon Mechanical Turk成了她的全職工作。在兩年的時間里,她每周工作六七天,有時一天工作17個小時。她一年賺大約5萬美元。米蘭德女士說:“那時候夠了,但現(xiàn)在卻不行。”
當時的工作并不真正涉及AI。對于另一個項目,米蘭德會從抵押貸款文件中提取信息,或者從名片照片中重新鍵入姓名和地址,有時每小時只能賺1美元。
大約在2010年,米蘭德開始為AI項目貼標簽。她標記過各種各樣的數(shù)據(jù),比如Twitter上出現(xiàn)的血淋淋圖片(這有助于建立AI,有助于從社交網(wǎng)絡(luò)上刪除血腥圖片),或者可能是在中東某處拍攝的空中鏡頭,想必是針對軍方及其合作伙伴正在建設(shè)的用于識別無人機目標的AI。
米蘭德說,來自美國科技巨頭的項目通常比普通工作的薪酬高,大約每小時15美元。但這份工作沒有醫(yī)療保健或帶薪假期,可能會讓人麻木或者令人深感不安。她稱其為“可怕的剝削”,亞馬遜拒絕置評。
自2012年以來,現(xiàn)年40歲的米蘭德始終待在名為Turker Nation的組織中,該組織旨在改善數(shù)千名從事這類工作的人的工作條件。今年4月,在工作14年后,她辭職了。
米蘭德在讀法學(xué)院,她丈夫的收入比他們每個月支付的房租少600美元,這還不包括水電費。所以,他們正準備負債。但她不會回去給數(shù)據(jù)貼標簽。她說:“這是一個反烏托邦的未來,我已經(jīng)受夠了!”