05.24 百度在AI時代的數據解決方案

人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

人工智能是計算機科學的一個分支,它企圖瞭解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。

人工智能行業現狀

1、人工智能進入公眾視野

百度在AI時代的數據解決方案

人工智能的強大能力已被證明

2、人工智能大事記

事件一:AlphaGo3:0戰勝柯潔,DeepMind 創始人宣佈 AlphaGo“退役”圍棋界再無敵手之後,Algphgo的下 一個目標是“征服”哪裡?

事件二:百度All in AI,發佈了 DuerOS 和 開源自動駕駛系統Apollo,All in AI表明了決心,也為百度貼上 了一個新標籤——“人工智能公司”。

事件三:國務院印發新一代人工智能發展規劃中國將人工智能上升為國家戰略《規劃》提出了六方面的重點任務和 一系列保障措施,國家層面為AI奠定 好的基調。

事件四:NVIDIA發佈地表最強 GPU:PCI-E Tesla V100,只需要幾張V100的算力就能夠與當前的各國精心打造的超級計算機的算力相當。

事件五:類人機器人Sophia亮相《早安英國》人工安卓智能機器人Sophia與她的發明人 David Hanson博士共同做客《早安英國》 節目,接受主持人的現場大拷問。

3、人工智能發展歷程

百度在AI時代的數據解決方案

4、人工智能爆發的三大因素

算法是核心,計算、數據是基礎。

百度在AI時代的數據解決方案

數據之於人工智能

1、海量、精準、高質量的數據是人工智能的根本

數據是一切人工智能技術和應用實現的基礎保障和前提!

百度在AI時代的數據解決方案

技術層級

百度在AI時代的數據解決方案

數據種類

2、數據樣本與算法模型

百度在AI時代的數據解決方案

人工智能需要通過大量的數據樣本來“訓練”自己,才能不斷提升輸出結果的質量。

3、有時候,數據真的可以秒殺算法

有時候誰能夠取勝,並不取決於誰擁有更好的算法模型,而是看誰掌握著

更多、更好的數據資源。

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

4、快人一步搶佔先機,數據競賽“質&量”取勝

百度在AI時代的數據解決方案

人工智能基礎數據面臨的難題

1、項目“冷”啟動的數據困擾

百度在AI時代的數據解決方案

2、獲取和加工數據,AI基礎數據的兩大難題

百度在AI時代的數據解決方案

  • 如何採集:原屬數據類型繁雜, 沒有統一的採集標準,同一批 數據會出現多輪採集;
  • 誰來採集:線上數據可藉助機 器採集,線下數據需要純人工 採集,時間、經濟成本大;
  • 如何加工:行業缺乏統一標準, 方法不一致,重複人力投入;
  • 誰來加工:機器難以完全勝任,人工處理花費大量人力、物力;
  • 質量如何保障:人工抽檢,覆 蓋面有限,準確率有瓶頸。

1、鏈條化AI數據加工廠,為AI發展保駕護航

百度在AI時代的數據解決方案

2、沉澱數據處理方法,建立數據處理規則

數據清洗:

  • 不完整數據
  • 錯誤數據
  • 冗餘數據
  • 數據標籤化
  • 垂類數據

數據評估:

  • 相關性評估
  • 時效性評估
  • 競品評估
  • 互聯網,社交網絡輿情
  • 電子商務評論

數據內容獲取:

  • 關鍵詞提取
  • 網頁內容提取
  • 圖片內容提取(OCR 識別,人臉識別,物 體識別等)

特殊信息處理:

  • 地圖信息製作
  • 語音轉寫
  • 其他數據標註

3、固化數據處理工具——通用圖片檢測

通用圖片檢測類型涵蓋商品、動物、植物、菜品、服裝搭配、黃反、暴恐、 建築、素材等多種垂類。

  • 多圖 vs. 單圖;
  • 圖+參考文字/參考圖/搜索頁面/參考鏈接/預識別結果/特定內部參考頁面;
  • 多題 vs. 單題;
  • 題目類型:單選/多選/多級菜單選擇/填寫
百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

4、標註工具——目標框選類

框選類能力涵蓋: 普通矩形、分類矩形、普通多邊形、分類多邊形、區域填色、多級屬性多邊形、Parsing、點+線+區域複合檢測。

百度在AI時代的數據解決方案

5、標註工具——內容評估

用戶行為畫像:對“興趣偏好“屬性進行策略優化,通過第三方人工標註,通過用戶人工貢獻評價, 評估策略優化後的標籤準確率。

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

要素提取:依據客戶要求對文字內容或槽位進行提取並定位具體屬性。

百度在AI時代的數據解決方案

6、標註工具——圖片&語音轉寫

  • 進行多種語言OCR文字轉寫
  • 進行多種口音的語音文字轉寫
百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

7、多級質量管控,突破準確率瓶頸

百度在AI時代的數據解決方案

8、根據數據需求類型,覆蓋更多實際應用場景

經過多年的數據積累,目前百度的人工智能數據倉庫已經覆蓋了超過5個大類,50多個小類別的實際人工智能模型數據集。

百度在AI時代的數據解決方案

典型人工智能應用場景

1、計算機視覺數據解決方案

百度在AI時代的數據解決方案

數據採集:根據實際計算機識別模型的要求,採集相應的圖片、視頻內容。

數據加工:將採集內容加工處理:標註關鍵點定位、提取特徵信息打標籤。

模型訓練:將原始數據和特徵標籤數據提交到學習平臺進行訓練,提高識別精度。

識別反饋:進行多次的迭代訓練,最終計算機給予相應的識別反饋信息。

2、計算機視覺應用下的數據方案

1)泰國車輛號牌數據

泰國車牌圖像採集:

  • 採集泰國車輛正面號牌圖像數據
  • 通過專業單反相機拍攝
  • 真實泰國車牌超過2萬張

車輛號牌框選標註:

  • 十字座標對車牌進行定位框選
  • 十字座標對車牌字符進行框選
  • 對車牌字符按照泰文進行標註
百度在AI時代的數據解決方案

2)特殊場景人臉圖像數據

特殊要求人臉圖像採集:

  • 採集指定條件下的人臉圖像照 片
  • 通過手機自帶相機拍攝
  • 正常、暗光、微光多條件拍攝
  • 口罩、墨鏡、帽子多遮擋條件 拍攝

人臉圖像標註:

  • 人臉檢測標註:人臉位置框選
  • 人臉關鍵點標註:人臉5點-72 點標註
百度在AI時代的數據解決方案

3、語音識別數據解決方案

百度在AI時代的數據解決方案

語音識別:喚醒詞、中英文語料、 方言語音識別;

語義理解:多輪對話:上下文可隨時打斷,加入語境分析功能;

自然語言生成:機器翻譯、實時同聲傳譯;

語音合成:中文語音合成、中英文混合語音合成;

漢語方言語音數據採集:

  • 採集指定地區的漢語方言數據;
  • 通過手機自帶麥克錄製;
  • 四川話/上海話/湖南話等8種方言;
  • 安靜/吵鬧環境錄製;

語音數據轉寫標註:

  • 中文方言、普通話;
  • 轉寫準確率98%;
百度在AI時代的數據解決方案

百度在AI時代的數據解決方案

百度在AI時代的數據解決方案


分享到:


相關文章: