首發|這家數據公司又融1000萬 用AI輔助人工標註 服務京東小米

首發|這家數據公司又融1000萬 用AI輔助人工標註 服務京東小米

章磊希望把“星塵數據”做成開源工具平臺,數據取之於眾,開放於眾。

近日,“星塵數據”創始人章磊向鉛筆道透露,項目於今年1月完成1000萬Pre-A輪融資。本輪融資主要用於數據模型研發。

“星塵數據”是一家面向機器學習模型和訓練數據的人工智能平臺,提供數據採集和標註的眾包服務。其平臺通過數據運維處理系統,將數據標註精度提高到 99% ;並用智能標註工具去輔助人工,從而降低數據服務成本,節省了近1/3的時間成本。在“星塵數據”的模式中,人工標註在70%左右,機器佔30%。平臺用戶(數據標註人員)超過20萬人。

注:章磊承諾文中數據無誤,為內容真實性負責。鉛筆道作客觀真實記錄,已備份速記錄音。

章磊認為,在人工智能領域,算法+數據=機器學習模型。除了日漸完善豐富的算法理論,大量精準的數據已成為深度學習模型的關鍵。

章磊曾因找不到合適的數據標註服務商,自己創辦一家數據公司,為人工智能公司提供深度學習所需要的數據標註、數據收集、數據交易等服務。

剛開始時,章磊和團隊一度認為B2B服務中,維護好客戶關係是重中之重。但是他們在大量的數據業務服務中發現,客戶在採購過程中,大多會將成本作為第一考慮因素,最後通過比價、詢價來決定簽約哪家服務商。因此,真正核心競爭力在於降低數據服務成本。

控制成本意味著團隊要從管理、人員、技術上嚴格把控。由於大量數據需要很多人力來進行具體數據標註服務,章磊及團隊使用運維繫統,管控數據和人員的全工作週期。數據方面,系統可以對數據的標註和審核以及完全狀態的準確度進行驗證,並保證準確率在99%以上;人員方面,系統會從上崗、培訓、考核、實操等階段實時進行檢測。

比如常規準確率為為95%的系統,在常規情況下,只有通過增加更多輪次的檢測來提升精度,這就意味著消耗更多的成本。一些特殊項目,人力需求可能會因為超高精度的需求而翻幾倍。平臺通過動態準確度計算以及多用戶漸進式標註等方法來解決這一問題。

首發|這家數據公司又融1000萬 用AI輔助人工標註 服務京東小米

圖片標註流程控制展示。

技術上,“星塵數據”有幾十類工具模板以滿足常見的機器學習的數據標註、收集的工作,包括圖像、視頻、音頻以及數據收集等。

除了人工、機器處理數據外,“星塵數據”有一個輔助標註的模塊,通過人機互動的方式輔助數據加工以降低人力成本,可節省1/3的時間成本。部分標註可用計算機逐步調整,目前團隊正在開發各種類型的數據標註輔助工具。其平臺上人工標註佔70%左右,機器標註佔30%。在前期嚴格控制成本的基礎上,以圖片為例,平臺上一張圖的數據標註價格最低5分錢。

首發|這家數據公司又融1000萬 用AI輔助人工標註 服務京東小米

機器輔助標註效果圖

此外,“數據黃牛”也是讓章磊和他的團隊非常頭疼的問題。在數據標註行業,分包現象非常嚴重,“數據黃牛”將任務逐層轉包下去。數據服務公司支出高昂成本,用戶付出大量勞動後卻拿到較少報酬,而“二道販子”輕鬆賺到差價。因此,團隊和渠道商合作,通過相應的激勵機制,吸引用戶直接到“星塵數據”平臺完成任務,沒有中間商,平臺直接向用戶支付報酬。目前,平臺用戶已超過20萬。

數據標註行業用戶流動性很大,“對於數據公司而言,百萬級註冊用戶固然重要,但更有價值的是一定質量的用戶長期在一個平臺做數據處理,這就夠了。”為增強平臺上用戶粘性,完成用戶快速裂變,章磊及團隊借鑑遊戲玩法,設計了類似於“通關遊戲”激勵機制,不僅有現金獎勵,還設置了經驗值。用戶完成任務越多、等級越高,獎勵越多,就像玩遊戲一樣完成任務。

章磊向鉛筆道透露,“星塵數據”已於今年1月完成1000萬Pre-A輪融資,資金主要用於數據模型研發。下一步,章磊團隊計劃開發一款數據開源工具,幫助AI從業者免費獲得數據。

/The End/


分享到:


相關文章: