我猜,你還不知道數據標註公司在做什麼吧?


我猜,你還不知道數據標註公司在做什麼吧?


大多數AI實驗室、初創型AI公司在發展初期如果僱傭大量的人力進行數據標註,就不得不面臨下面兩種處境:首先對公司的管理方面就是巨大的挑戰,在研發產品的同時還得把大量精力放在如何管理大量標註人員身上。其次大量全職的標註人員的薪酬對於初創型公司和研究實驗室也是一個不小的挑戰.....

01

基礎架構

數據標註行業,一個因為人工智能崛起而新興的行業。

大多數AI實驗室、初創型AI公司在發展初期如果僱傭大量的人力進行數據標註,就不得不面臨下面兩種處境:

首先對公司的管理方面就是巨大的挑戰,在研發產品的同時還得把大量精力放在如何管理大量標註人員身上。

其次大量全職的標註人員的薪酬對於初創型公司和研究實驗室也是一個不小的挑戰。

為了更好的協調AI公司、AI實驗室與群體標註人員的供需關係,本文中所指的標註公司就是在這樣的大背景下,應需而生。

那麼問題來了,如何運營一家標註公司呢?

本文先從最基礎的標註公司架構開始介紹,不同階段的標註公司的運營是有差別的。

最基礎的標註公司應該具備以下4點:

· 標註員

這也是組成標註公司最重要的一點,有一批優秀的標註員一定可以讓你的公司事半功倍。

那麼怎麼樣的標註員才能算是優秀呢?這裡有幾個衡量標準:首先數據標註的終端是AI、是人工智能。

數據標註的最終數據是為計算機服務的,所以越精細的標註對計算機的訓練越高效,這就要求我們的標註員一定要是一個細心認真的人。

越細心、越認真,標註數據的精細度就越有保證。

其次,因為需要標註的數據的場景是千變萬化的,會有各種各樣複雜的場景出現,這就要求我們的標註員要有較強的觀察能力。

觀察能力越強的人,標註出的物體輪廓也就離物品的真實輪廓越相近,越準確。

最後,因為數據標註在單一的場景中需要重複一個或者幾個動作,除去判斷,這種重複的勞動是相對比較枯燥的,這就要求我們的標註員需要有耐心能夠坐得住。

越有耐心,能坐得住,標註數據的穩定性就越有保證。

· 審核員

審核員一般都是從優秀的標註員中挑選出來的。

因為數據標註是一個類似於熟能生巧的行業,一個標註員接觸過的標註對象越多,場景越複雜,那麼他也就越有可能更快、更準確的判斷出複雜場景中的被標註元素,這些都是靠時間和經驗堆積出來的。

自身是一個優秀的標註員,這種標註員在審核時會同樣把自身對標註的要求傳達給其他標註員,這對於提升標註數據的整體質量是有很好的幫助帶動作用。

· 項目經理

項目經理主要就是對於項目組的各個成員(包括標註員和審核員)的管理,項目經理最好是能夠有一定的AI基礎。

有AI基礎的項目經理,在和上游需求公司對接的時候能夠供輕鬆的進入項目本身,能夠更快更準確的瞭解上游公司標註的具體需求,減少溝通時間的同時,避免因為溝通規則上的誤差導致下游標註員重複返工的情況。

· 運營總監

運營總監嚴格意義上也就是公司的創始人了,運營總監基本上就是奔波於各類 AI 企業,各種 AI 實驗室,說簡單一些就是尋找需求方。至於可能大家比較關心的怎麼找,本文後續會有更多詳細介紹。

人工智能或者說AI會成為未來的趨勢,已經是大勢所趨,不論國外還是國內的互聯網科技巨頭都在佈局 AI 產業,從谷歌、亞馬遜、Facebook 到阿里巴巴、騰訊、百度、京東都在積極的佈局自己的 AI 體系。

與此同時,我們國家的決策層提出:人工智能是引領這一輪科技革命和產業變革的戰略性技術,具有溢出帶動性很強的“頭雁”效應。

02

市場結構

由於上游客戶的需求可能千變萬化,同時客戶的需求很大概率都是階段性的,這就要求眾包公司合作的大眾志願者首先自身得是穩定的。但是由於大眾志願者就是利用閒散時間進行工作的這種特性,長期穩定的大眾志願者幾乎不太可能,這就要求數據標註眾包公司必須擁有龐大的大眾志願者團隊,形成一個體系。才能保證在發放任務的時候總是有充足的大眾志願者進行合作.....


我猜,你還不知道數據標註公司在做什麼吧?


隨著 AI 浪潮的斬頭露角,數據標註行業也猶如雨後春筍般蓬勃的發展起來。

本文就目前國內數據標註行業存在的幾個階段性結構特徵進行展開,讓更多想了解數據標註的 AI公司、AI 實驗室、準備加入數據標註的朋友們,快速熟悉目前數據標註行業的現狀和運營數據標註公司應該注意的若干問題。

數據標註市場目前有下面幾種結構:

· 眾包結構

顧名思義,就是把需要完成的任務分發給大眾志願者(也就是市場上說的兼職)。這其中就出現了眾包公司。

眾包公司聯繫到需求數據標註的客戶,和客戶建立合作關係後,將客戶需求傳達給合作的大眾志願者,從而形成一個“需求公司——數據標註眾包公司——多個大眾志願者”這樣一個眾包結構 。

這種眾包結構的優點就是可以組織起社會上的大眾志願者進行數據標註,而大眾志願者不用佔用太多的公司資源,勞動力成本相對較低。

對於數據標註眾包公司費用支出的核心——人工來說,無疑是可以極大的減少公司的運營成本,從而使公司自身在面對需求數據標註的客戶時的報價更具有競爭力。

當然,眾包結構的缺點和優點一樣顯而易見,甚至可以說它的缺點已經慢慢的大過了它的優點,為什麼這麼說呢?

需要擁有大量的志願者基數,由於上游客戶的需求可能千變萬化,同時客戶的需求很大概率都是階段性的,這就要求眾包公司合作的大眾志願者首先自身得是穩定的。

但是由於大眾志願者就是利用閒散時間進行工作的這種特性,長期穩定的大眾志願者幾乎不太可能,這就要求數據標註眾包公司必須擁有龐大的大眾志願者團隊,形成一個體系。

才能保證在發放任務的時候總是有充足的大眾志願者進行合作。

溝通成本高昂,而當大眾志願者的數量能夠滿足任務要求時,我們又不得不面對另一個事實:

數據標註眾包公司在與需求公司洽談合作時只能有針對性的進行數據標註類型的選擇。

如果在選擇數據標註項目上普遍撒網,就會面對公司自身需要投入巨大的精力去培訓那些不斷更迭的大眾志願者。

而很多時候公司在大眾志願者合作方面節約下來的成本,其實已經全部轉嫁到了公司培訓、糾錯諸如此類的溝通環節。

數據保密困難,目前國內的AI公司,AI實驗室還沒有形成井噴之勢。但就現階段而言依然有眾多AI公司,AI實驗室在進行著高度重疊的產品研發。

對於有標註需求的公司來說,如果被標註數據都是真金白銀獲取來的,那麼倘若在眾包環節眾包公司處理不當,很有可能AI公司辛苦獲取的數據就成了其他AI公司的嫁衣。

無法給予需求公司靈活的服務,因為大眾志願者擁有流動性的特點,一旦需求公司改變原有標註需求,數據標註眾包公司是沒有辦法在較短的時間進行調整的。

同時,數據標註眾包公司的客戶群體也相對單一,由於大眾志願者的群體特點,數據標註眾包公司只能把更多精力放在需要大批量數據標註,同時標註規則相對簡單的需求公司。

但是AI的訓練是一個階段性的過程,基本上都是:小批量找特徵訓練——較小批量簡單場景訓練——較小批量複雜場景訓練——大批量訓練。

在數據標註眾包公司砍掉處在第一階段的AI公司和AI實驗室的時候,其實也就是砍掉了相當一部分潛在客戶。

· 工廠結構

有了眾包結構裡的兼職架構,下面就著重介紹一下全職架構,也就是工廠結構。

工廠結構相較於眾包結構形式上要簡單一些,省去了中間眾包商這個環節,進而形成了一個“需求公司——數據工廠”這樣的工廠結構。

相較於數據眾包公司,數據工廠的優點就是標註人員穩定,能做到需求方和數據標註方即時溝通,溝通成本大大降低。

同時,由於數據是以一對一的形式進行傳遞的,也大大降低了數據被洩露的可能性。

雖然工廠結構可以有效的規避很多眾包結構中存在的種種問題,但是依舊有很多問題他是沒辦法解決的,那我們就看看有哪些問題工廠結構解決不了呢?

選擇標註公司的困難,在市場上可能有成百上千個工廠結構的數據標註公司,但是有數據標註需求的公司應該如何選擇呢?

如果沒有選擇正確的標註公司,不僅得不到高質量的標註數據,更有可能因為數據大批量不合格而重複返工,進而耽誤了原本項目的工期。

而在這個AI公司百家爭鳴的時代,時間才是最重要的,誰的產品最先出世,也就最有機會獲得資本的垂青。

但是有標註需求的公司如何在眾生百態的標註市場中選擇一個質量和效率雙重過硬的公司其實是一件非常困難的事情。

工廠結構公司兩極分化,因為各種各樣的原因,工廠結構的公司兩極化很明顯:較大的可以達到上千人;而較小的,只有幾個人。

因為兩級分化的原因,市場現在就會出現一個很有意思的現象:

大的公司很少會去對接短期且數據量較少的項目,因為承接較少的數據量對於一個較大的工廠結構的標註公司來說很有可能都不夠公司日常的管理運營成本;

反之,小的標註公司可以承接短期數據量較少的項目,但是在大批量數據殺到的時候,又會顯得捉襟見肘,難以承接。

人工成本風險較高,首先因為是全職,不論有沒有任務,都涉及一個員工薪酬的發放。

其次,需求方公司的需求有大概率是呈週期性的,就是有可能這周公司有項目做,下週可能就沒有了。

這就會映射出一個工廠結構的數據標註公司非常尷尬的處境:合同期限內需要完成的大項目可能需要大量人員進行參與。

可是一旦合同結束了,公司卻又沒有找到後續能夠進行人員分配的項目,這就會給數據標註公司的運營帶來挑戰。

· 眾包+工廠結構

有了眾包和工廠結構的總結,我們不難發現,他們各有各的優點,也各有各的缺點。這裡提出的眾包+工廠結構,其實就是將兩者進行了優缺點的融合,揚長避短。

那麼大家肯定會有疑問,怎麼融合呢?如何才能將這兩種結構很好的在實際操作中統一起來呢,歡迎大家持續關注微博,在後面的篇幅裡,會有詳細介紹。


內容來源 | 覺醒向量


分享到:


相關文章: