05.11 今日頭條副總編輯李彤:我們為什麼需要專家監督團

今日頭條副總編輯李彤:我們為什麼需要專家監督團

過去的兩年裡,公司取得了很多成績,作為其中一份子,我與有榮焉。但同時,在這段時間裡,公司也在內外受到了一些質疑和批評,其中不少是針對內容領域的,作為一個編輯,我倍感壓力。

前不久公司組建了今日頭條專家團,邀請社會各界的專家學者來對我們的內容進行監督,徵求意見。在我看來這是件好事,引入權威意見能夠幫助我們改善內容和服務質量。

但一些同事表達了他們的意見,認為專家團對於優化內容服務的幫助並不大。

在此,我也想談談我們需要專家團的理由。

同事的看法一直以來都存在,技術同事覺得應該減少人工對於系統的干預,原因在於,人工的判斷在準確度和可靠性上都不如海量數據集合後的結果。

一個人一天能夠處理的文章數量大概是1000篇,相比之下,機器一秒鐘就能處理100篇文章。今日頭條每天新增發佈50萬條內容,全部交由人工來篩的話,一個人需要工作500天才能看完,機器則只需要90分鐘。今日頭條目前搭建色情、低俗、標題黨、虛假信息、低質模型180多個,都可以有效提升內容審核的效率。

但頭條在內容生產上始終把人工審核和推薦作為一個重要的環節,原因就在於技術存在幾個的侷限性。

第一點,內容的判定,人工操作有主觀性,而機器識別“一刀切”。

以色情內容為例,機器對於裸露的識別是有侷限性的。一個經典的案例是,Facebook 曾經因為“裸露”,誤傷了一張著名的越戰新聞照片,照片裡一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑。今日頭條也有過類似的情況。此前,我們下架了一張關於吳哥窟塑像的圖片,塑像雖然“露點”,但其實是名勝古蹟。這是基於我們的審核標準,造成了機器的“誤傷”。

第二點,是滯後性。

一般來說,機器識別是需要大量的數據積累,再對於算法模型進行訓練。這需要滿足兩個要求,一定的數據量和一定的學習時間。

比如平臺上的泛低質識別涉及的情況非常多,像假新聞、黑稿、題文不符、標題黨、內容質量低等等,這部分內容由機器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對。

再比如,一些專業化領域的知識,由於缺乏數據積累機器難以識別,普通人也很難做出判斷。在機器能夠充分識別這些冷門信息之前,會有一個積累數據和學習的時間窗口。

這些過往實踐中所遇到的問題,都可以通過專家意見來獲得有效的改善。專家可以在發現低質量、不準確內容的第一時間做出反饋,從而大大縮短機器學習的時間。在後續模型優化的過程中,專家的意見可以作為重要的參考要素。

今日頭條副總編輯李彤:我們為什麼需要專家監督團

說這些顯然不是否定公司的技術。恰恰相反,從傳統媒體人轉變為今日頭條的編輯,我見證了人工智能技術能夠為信息的傳播帶來的全新變化。優質的資訊、信息,通過今日頭條強大技術精準地分發到每個用戶的手機上。

我們甚至把過去的尋人啟示,利用人工智能技術改造,創造出了頭條尋人這樣幫助尋找走失人員的項目,對我來說,在過去是難以想象的。

也正是如此,我由衷的希望,在不斷地提升機器的能力,用更好、更精確地算法模型來對內容進行審核推薦的同時,能夠有更正確價值觀指導平臺內容。

我真誠地歡迎專家團的組建,也希望在未來的日子裡,能夠有更多各行各業的專家、學者、媒體人、研究人士能夠參與進來,對平臺內容和服務進行監督,更好地提升內容質量。


分享到:


相關文章: