有多少智能,就有多少人工:北京AI標註員的生活


7月11日,北京市北五環外西二旗一家數據標註工廠,人工智能標註員在電腦前工作。她們從電腦裡的生活照、風景照或街拍照片中按客戶需求框出汽車、動物、樂器等物品,交給機器學習識別。在北京市北五環外西二旗的這家數據標註工廠,這樣的動作她們每天要重複數千次。 中國青年報 李雋輝/攝

標註員為照片中的汽車進行3D畫框。所有人工智能都離不開深度學習系統,這個系統的技術提升依賴大量人工完成的標籤化數據。數據在人工完成篩選標註後,交由機器自我學習,標註數據的人被稱為標註員。這些數據將被用於人臉識別、安防、無人車駕駛等,這是整個AI產業的基礎,是機器感知現實世界的原點。

一群年齡大多不到20歲的新標註員正聽資深員工講解工作中容易出現的問題。這家數據標註工廠目前有300多名員工,大多是年輕人甚至00後。這裡的標註員大都畢業於大中專院校,月收入5000多元,工廠在5站地鐵外為員工們提供了免費宿舍。


22歲的郭萬軍從業已經兩年。21歲的張嵛森畢業於山東一所勞動技術服務學校,同期畢業的同學有的去了114查號臺,有的去了聯通、移動等電信公司做客服。他的室友阿寬今年17歲,剛剛入職不久。阿寬說,雖然每天坐在辦公室裡,但通過來自世界各地的照片可以認識外面的世界。這也是張嵛森認為自己比其他同學幸運的地方,“這是一份有趣的工作”。

接到越南客戶的訂單後,標註組負責人員研究越南語字母,避免標註錯誤。張嵛森的女友林雪在工廠中負責質檢,一天要檢查2000多張處理好的圖片,需要時刻保持緊張的工作狀態。林雪的客戶會在500張做好標註的圖裡進行抽查,做錯一張圖,那500張就不會按照原價付款了。遇到人臉標註的照片時則需要抽查10%,如果錯誤率超過1%,客戶就會要求更換標註員和標註賬號。

測試手機的面部識別系統。除去容錯率,另一個最重要的規則就是信息保密。每一臺計算機都禁用USB口,標註員在封閉並且被監控的情況下處理數據。數據被交付給標註員前會先做碎片化的“脫敏處理”:一份表格被打散,再分發給終端節點作業員,每個標註員手中拿到的只是表格中的一部分。


一名標註員的手機播放著網劇。38歲的杜榮霞負責管理清一色還在實習的年輕面孔。他們在經過1到3個月的培訓後,基本可以掌握處理數據的規則。有的實習生會在電腦鍵盤上插一個小圓鏡,通過反射看到從身後經過的人,這是在學校用來觀察老師行蹤的辦法。杜榮霞說:“他們比我的女兒大不了多少,有時候覺得就像帶著一群孩子一樣。”

24歲卻已有7年工齡的安麗平在工位上午休。這家公司的創始人杜霖是個80後。從事過圖像識別相關的工作,他看到人工智能行業對數據的爆發式需求,於是決定創業。他介紹,國內人工智能的數據市場已經達到數十億元人民幣的規模,但標註行業的團隊水平參差不齊。一些團隊以很低的價格接標註任務,卻因為沒有技術積累,標註質量、交付日期經常會出問題。

晚餐時間,孫崇洋和在同一家數碼標註工廠的女友于春麗一起下館子。

晚7點,西二旗地鐵站,張嵛森和同在數據標註工廠的女友林雪準備回宿舍。

20歲的林雪在宿舍裡。她來自河北滄州,已經做了3年數據標註、質檢工作。

晚上,幾名年輕的標註員在宿舍玩手機遊戲。除了全職員工,這個行業裡還有不少兼職人員。“寶媽”掌握了相關規則後,在家就可以完成工作。杜霖還希望將一些基礎工作交付給行動不便或是有聽力障礙的殘疾人。在杜霖看來,他們找工作不容易,但大多認真專注,非常適合標註員的崗位。

曹永川和阿寬在宿舍樓門前。不久前,美國特斯拉公司的自動駕駛汽車發生事故,就是因為系統誤將前方車輛的藍色車身識別為藍天白雲。“如果一輛自動駕駛汽車在行駛中出了事故,原因可能就是標註沒有做好。”林雪說。這些年輕的標註員相信,自己所處理的每一個數據都將和最前沿科技的人工智能聯繫起來,這讓他們很有成就感。中國青年報 李雋輝/攝 品照片,看天下——關注“守候微光”


分享到:


相關文章: