訓練數據也外包?這家公司“承包”了不少註釋訓練數據,原來是這樣做的……

訓練數據也外包?這家公司“承包”了不少註釋訓練數據,原來是這樣做的……

訓練數據也外包?這家公司“承包”了不少註釋訓練數據,原來是這樣做的……

作者 | Lionbridge AI

譯者 | 天道酬勤 責編 | 徐威龍

封圖| CSDN│下載於視覺中國

出品 | AI科技大本營(ID:rgznai100)

在機器學習領域,訓練數據準備是最重要且最耗時的任務之一。實際上,許多數據科學家聲稱數據科學的很大一部分是預處理的,並且一些研究表明,訓練數據的質量比你使用的算法類型更為重要。

事實上,越來越多的公司進入了人工智能市場,來幫助滿足這種對訓練數據的需求。

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

你如何獲取機器學習訓練數據?

獲取訓練數據的主要方法有以下三種:

  • 開源數據集:通過Kaggle、Google數據集搜索或數據集聚合器等網站在線查找。
  • 自己構建數據集:收集/創建數據並在內部進行註釋。
  • 外包數據收集和註釋服務:訓練數據提供商提供的服務。

對於個人項目或學校作業,有時打開的數據集可以為你需要完成的任務提供足夠的數據量。但是,在為商業目的構建和訓練人工智能解決方案時,開源數據集通常無法用於你的用例,也不能用於商業化獲利。此外,當你擁有數千條數據並且只有少量員工時,內部採購和註釋訓練數據通常效率不高。這給我們提供了第三個選擇:

外包訓練數據服務

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

機器學習訓練數據服務

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

Lionbridge通過各種機器學習訓練數據服務來幫助客戶改善其模型。

目前,有一家相關的企業:Lionbridge 就正在做這類型的工作。當我們去了解之後,發現 其中的一些核心服務如下:

  • 數據收集:語音/話語數據,手寫數據,聊天機器人訓練短語。
  • 圖像和視頻註釋:邊界框,多邊形,圓形,直線,關鍵點。
  • 文字註釋:情感,實體,實體鏈接,分類。
  • 音頻註釋:逐字記錄,智能逐字記錄,音頻分類。
  • 內容評估:廣告評估,搜索評估,地理位置數據評估。
训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

從翻譯到訓練數據

Lionbridge 利用他們的全球數據科學家、計算語言學家、翻譯和註釋者的專業知識,為各種用例創建機器學習訓練數據。

為什麼翻譯公司適合數據註釋?

例如 Lionbridge ,是意識到他們的全球社區是進行數據註釋的理想勞動力。

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

尤其是對於自然語言處理(NLP),專業的語言學家是實體提取、搜索查詢分類和其他基於語言的註釋項目的理想註釋者。

經過全面的測試和培訓之後,這些相同的員工可以輕鬆地執行各種圖像註釋任務,來實現計算機視覺。

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

翻譯質量等於訓練數據質量嗎?

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

沒必要質量相等。但是,翻譯中的質量保證過程非常類似於人工智能訓練數據的質量檢查協議。例如,本地化項目的質量檢查流程之一就是編輯審查。在進行翻譯時,通常我們需要一位或多位編輯來審核翻譯人員的輸出。同樣,在我們的許多人工智能項目中,我們有多個貢獻者註釋同一條數據來檢查是否一致。很多時候,質量管理意味著對貢獻者的管理。為了確保準確性,你的數據必須經過許多流程。

  • 管理輸出

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

社區需要有許多協議可以確保每個貢獻者都盡其所能。例如檢查註釋者之間的協議,來確保每個註釋正確。此過程還可以幫助其驗證數據本身是否清晰以及任務是否簡單。對於某些項目,最多有五個貢獻者對同一數據進行註釋。此外,還可以實施自我協議檢查,來確保每個貢獻者與其工作保持一致。

機器學習訓練數據質量保證的一個很好的例子,是他們的話語/語音數據收集過程:

  • 首先,我們有聲音工程師確保每個貢獻者正確地說出該短語,他們確保貢獻者沒有遺漏任何單詞,並以自然的語調說話(與單調閱讀相反)。

  • 接下來,我們將音頻文件發送給每種語言的母語者,他們來根據腳本檢查聲音片段。

  • 最後,他們發送文件以進行音頻質量檢查,以確保在特定閾值內沒有噪音,以及客戶要求的其他標準。

這些只是他們已經實施的質量檢查措施中的一部分,看起來正在持續完善中。

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

數據質量是主觀的

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

歸根結底,數據質量的定義取決於項目。“當談到訓練數據的質量時,沒有客觀的定義。這取決於用戶要嘗試做的事情。” Lionbridge日本AI服務總監Cedric Wagrez說。 “質量與用戶的最終目標和各種因素有關,例如用戶的KPI、精度和量身定製的用例。”

高質量的機器學習訓練數據是以可以幫助用戶實現目標的方式收集、註釋和校準的數據。

在開始管理質量之前,首先必須瞭解這對用戶的意願是什麼。

  • 試驗項目

在項目開始之前會提供免費諮詢,來解釋收集或註釋數據的最佳方法。

接下來,運行測試和試驗項目以符合客戶預期。假設你有10,000條要註釋的數據。為確保所有人都在同一頁上,他們將獲取前100個數據,在系統中設置項目,並讓社區為數據添加標籤。如果最終結果與你的想象完全一樣,那麼將繼續處理其餘數據。如果需要更改,將根據反饋進行重新校準。

重要的是,質量數據不僅僅是關於清晰的圖像和緊密的邊界框。你必須考慮選擇標籤數據的人員,提供數據的準則以及收集數據的環境。

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

文本、音頻、圖像和視頻的數據收集和註釋工具

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……

有員工為你的數據添加標籤,但是需要一個平臺對其進行標籤?如今,這類需求也得到了滿足,已經有服務商將數據註釋平臺發佈為消費產品。

人工智能行業有望在未來十年內為世界經濟增加15萬億美元。隨著市場的持續增長,對訓練數據的需求也將不斷增長。因此,我們可能會看到更多類似的服務公司進入機器學習訓練數據行業。

一切都在發展,這個行業將會越來越豐富,越來越值得期待!

https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi

【end】

原力計劃

《原力計劃【第二季】- 學習力挑戰》正式開始!即日起至 3月21日,千萬流量支持原創作者!更有專屬【勳章】等你來挑戰

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……
  • Google重磅發佈開源庫TFQ,快速建立量子機器學習模型

  • 用於小型圖形挖掘研究的瑞士軍刀:空手道俱樂部的圖表學習Python庫

  • MySQL 狠甩 Oracle 穩居 Top1,私有云最受重用,大數據人才匱乏! | 中國大數據應用年度報告

  • Libra新編程語言 :Move 的所有權模型靈感來源原來是它……

  • 曾經摸魚的程序員,如今在武漢自願加班

  • 雲原生的漏洞與威脅有哪些?雲原生安全性如何?這裡有你想知道的一切!


分享到:


相關文章: