iMerit公司位于印度加爾各答的辦公室。圖片來源:Rebecca Conway for The New York Times
印度奧里薩邦的首府布巴內(nèi)斯瓦爾,離孟加拉灣大約40英里(合約65公里)的距離。在布巴內(nèi)斯瓦爾的市中心,納米塔·普拉旦(Namita Pradhan)正坐在自己的工作臺前,眼睛注視著面前屏幕中的一段視頻錄像。這段視頻,錄制于地球彼端的某個醫(yī)院。
而這段視頻的內(nèi)容,則是某個病人結(jié)腸內(nèi)部的畫面。普拉旦做的工作,是通過視頻去發(fā)現(xiàn)息肉。息肉是大腸中向腸腔突出的贅生物,它可能會引發(fā)癌癥的出現(xiàn),它看起來有點像似一個小膿包。
當普拉旦在視頻中找到息肉過后,她會立馬通過鼠標和鍵盤,在這個小膿包周圍畫一個數(shù)字“邊界線”,從而將它標注出來。
普拉旦并不是醫(yī)學專業(yè)出身,但她做的工作,卻是在教人工智能系統(tǒng)的“老師”,直到人工智能系統(tǒng)順利畢業(yè)并且可以完成醫(yī)生的工作職責為止。
普拉旦的“教室”,位于一棟低矮建筑的四樓。在這個“教室”里,除了普拉旦,還有其他幾十位在做同樣工作的印度青年。而在他們正式上崗之前的培訓中,他們學習了如何去標注各種數(shù)字圖片的方法,并且能夠精準地標注出圖片上的任意內(nèi)容,比如現(xiàn)實街景中的交通標志和行人,以及衛(wèi)星地圖中的工廠和油罐車等。
許多科技行業(yè)的人士可能會告訴你,人工智能必然是這個行業(yè)的未來。得益于機器學習的應用于發(fā)展,如今的人工智能也是在經(jīng)歷日新月異的變化。
然而,在科技領(lǐng)域掌握著話語權(quán)的人士,卻很少提及這些快速發(fā)展背后的勞動密集型過程。實際上,人工智能它不是自學成才的,他們都是有人教的,而且教它們的人,甚至多到可以用不計其數(shù)來形容。
在人工智能系統(tǒng)開始學習之前,首先必須要向其輸入通過人工標注而成的數(shù)據(jù),正如前文提到的通過人工來圈定結(jié)腸息肉的例子。這項工作至關(guān)重要,無論是無人駕駛領(lǐng)域,監(jiān)控系統(tǒng)領(lǐng)域還是自動化醫(yī)療健康領(lǐng)域,人工智能的發(fā)展都離不開這項工作。
基本上所有的科技公司都對這項工作避而不談。然而,由于他們儲存了大量的個人隱私信息,甚至還會和外界第三方分享這些數(shù)據(jù)信息,因此也有越來越多的關(guān)注隱私的活躍人士紛紛站了出來。
今年上半年,通過努力,我爭取到了一次瞥見這個故事背后的機會。這樣的難得機會,在硅谷也通常都是欲求而不得的。
從最開始的印度奧里薩邦的布巴內(nèi)斯瓦爾,到最后的美國路易斯安那州的新奧爾良市,我一共實地到訪過五個這樣的辦公室。這些辦公室里,所有的工作人員都在做著無休無止的重復工作——教人工智能系統(tǒng)學習各種標注數(shù)據(jù)。而他們的“教學”系統(tǒng),都來自于一家名叫iMerit的公司。
這些辦公室里,有許多像普拉旦一樣的結(jié)腸檢查員。當然,其中也有負責其它“教學”任務的“老師”,比如真實街景識別員,或者語言及符號專員等。
這是不是一位行人呢?這到底是雙黃線還是點狀白實線呢?將來有一天,無人駕駛汽車必須要知道這些區(qū)別。
iMerit公司的員工必須掌握數(shù)據(jù)標注技能才能上崗。圖片來源:Rebecc aConway for The New York Times
我在這些辦公室中親眼所見的,并沒有一種看見未來的超前感覺。這些辦公室所在的建筑,原本都是一些話務呼叫中心或支付處理中心。
其中一間辦公室,位于印度西孟加拉邦首府加爾各答城市西端的低收入群體居民區(qū),而辦公室所在的那棟建筑,是一棟破舊的曾經(jīng)用作公寓的樓房。而這棟建筑的周邊,則是熙熙攘攘的行人、臨街叫賣的商販以及穿梭自如的突突車。
印度的其它城市,也有和布巴內(nèi)斯瓦爾一樣的辦公室。此外,在中國、尼泊爾、菲律賓、美國以及非洲東部幾個國家等地,也存在這些辦公室。這些辦公室里,坐著成千上萬的“老師”。他們打卡上班,唯一的工作職責就是教人工智能系統(tǒng)學習。
此外,還有成千上萬名遠程辦公的“老師”,他們在家完成“教學”工作,同樣也是完成圖片數(shù)據(jù)標注工作。大多數(shù)情況下,他們都是借助于亞馬遜勞務眾包平臺Amazon Mechanical Turk(AMT)提供的服務。在AMT平臺上,任何人都可以發(fā)起數(shù)字任務。無論是來自哪個國家的”老師“,都可以獨自認領(lǐng)并完成相應工作。然而,標注數(shù)據(jù)信息這份工作的報酬并不是很高。
總部位于印度的iMerit公司,服務于科技及汽車行業(yè)的眾多巨頭客戶。起初的時候,因為履行保密協(xié)議的原因,他們曾經(jīng)婉言拒絕了公開其客戶信息的請求。但最近,據(jù)iMerit公司透露,他們?nèi)蚓艂分公司共計約2000多名員工都在奮力為亞馬遜的一項名叫SageMakerGroundTruth的在線數(shù)據(jù)標注服務而做貢獻。而在這之前,他們也曾公開地透露稱,微軟公司也是他們的客戶。
在iMerit公司,辦公室墻上粘貼著員工藝術(shù)作品以及激勵文字。
圖片來源:Rebecca Conway for The New York Times
圖片來源:Rebecca Conway for The New York Times
將來有一天,但我們還不知道到底是哪一天,人工智能肯定會挖空整個人才市場。但就現(xiàn)在而言,它卻帶來了相對薪資較低的工作機會。
2018年,整個數(shù)據(jù)標注市場的規(guī)模超過了5億美元。據(jù)市場研究機構(gòu)Cognilytica預測,到2023年時,這個市場的規(guī)模將超過12億美元。單就數(shù)據(jù)標注而言,這項工作占據(jù)了發(fā)展人工智能技術(shù)所耗費時間的80%。
那么,這項工作帶有剝削性質(zhì)嗎?對于這個問題的答案,它取決于你所在的地區(qū)和城市,以及你所做的工作。在印度,這份工作可以讓你步入中等水平的生活;在新奧爾良市,它可以算作一份足夠體面的工作。而對于“個體承包商”而言,它更像是一條死胡同。
圖片來源:iMerit
要勝任這份工作,還必須提前學習有關(guān)必備的技能。比如,通過視頻或醫(yī)學掃描影像識別某種疾病的標志,或者在針對圖片某個元素勾畫數(shù)字圓圈的時候保持持續(xù)穩(wěn)定的手部力量等。在某些情況下,還可能會涉及醫(yī)學手術(shù)視頻以及色情或暴露圖像等內(nèi)容,而這些內(nèi)容可能就會令人不適了。
“當你首次看到這些內(nèi)容的時候,你會覺得非常不安。你甚至會有放棄這份工作的想法。”在亞馬遜AMT平臺參與數(shù)據(jù)標注工作長達數(shù)年的克莉絲蒂·米蘭(Kristy Milland)表示。
“但有些人如果放棄了這份工作,可能就會失去收入來源。所以又只好默默地忍受著。”米蘭補充說。
在動身前往印度之前,我試著通過某眾包服務平臺去標注圖片。我嘗試過在耐克logo周圍勾畫數(shù)字邊界線,也嘗試過識別“不適合工作場所(Not Safe for Work,簡稱NSFW)”的圖片。我發(fā)現(xiàn),我可能真的很難勝任這份工作。
在開始工作之前,我必須要通過一項測試。單單就這項測試,都差點讓人崩潰,而且我連續(xù)失敗了三次。整個體驗過程都讓人非常沮喪,我全程都需要在不同的圖片中標注各種信息,以便人們可以立即上網(wǎng)搜索相關(guān)零售商品。此外,在這個過程中,我還耗費了大量時間去辨別圖片中的裸體女性和性玩具等冒犯內(nèi)容,并將他們標注為“NSFW”。
對人工智能研究人員而言,他們希望能夠建立一套可以從少量數(shù)據(jù)中學習的系統(tǒng)。但從目前可以預見的未來來看,人力勞動仍然是不可獲取的因素。
“這是一個急劇擴張的世界,一個隱藏在科技背后的世界。”供職于微軟公司的人類學家、著有《幽靈工作》(Ghost Work)一書的瑪麗·格雷(Mary Gray)說,“如果要將人類排除在外,則是不太現(xiàn)實的事情。”