人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
人工智能是計算機科學的一個分支,它企圖瞭解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。
人工智能行業現狀
1、人工智能進入公眾視野
人工智能的強大能力已被證明
2、人工智能大事記
事件一:AlphaGo3:0戰勝柯潔,DeepMind 創始人宣佈 AlphaGo“退役”圍棋界再無敵手之後,Algphgo的下 一個目標是“征服”哪裡?
事件三:國務院印發新一代人工智能發展規劃中國將人工智能上升為國家戰略《規劃》提出了六方面的重點任務和 一系列保障措施,國家層面為AI奠定 好的基調。
事件四:NVIDIA發佈地表最強 GPU:PCI-E Tesla V100,只需要幾張V100的算力就能夠與當前的各國精心打造的超級計算機的算力相當。
事件五:類人機器人Sophia亮相《早安英國》人工安卓智能機器人Sophia與她的發明人 David Hanson博士共同做客《早安英國》 節目,接受主持人的現場大拷問。
3、人工智能發展歷程
4、人工智能爆發的三大因素
算法是核心,計算、數據是基礎。
數據之於人工智能
1、海量、精準、高質量的數據是人工智能的根本
數據是一切人工智能技術和應用實現的基礎保障和前提!
技術層級
數據種類
2、數據樣本與算法模型
人工智能需要通過大量的數據樣本來“訓練”自己,才能不斷提升輸出結果的質量。
3、有時候,數據真的可以秒殺算法
有時候誰能夠取勝,並不取決於誰擁有更好的算法模型,而是看誰掌握著
4、快人一步搶佔先機,數據競賽“質&量”取勝
人工智能基礎數據面臨的難題
1、項目“冷”啟動的數據困擾
2、獲取和加工數據,AI基礎數據的兩大難題
1、鏈條化AI數據加工廠,為AI發展保駕護航
2、沉澱數據處理方法,建立數據處理規則
數據清洗:
數據評估:
相關性評估時效性評估競品評估互聯網,社交網絡輿情電子商務評論數據內容獲取:
關鍵詞提取網頁內容提取圖片內容提取(OCR 識別,人臉識別,物 體識別等)特殊信息處理:
地圖信息製作語音轉寫其他數據標註3、固化數據處理工具——通用圖片檢測
通用圖片檢測類型涵蓋商品、動物、植物、菜品、服裝搭配、黃反、暴恐、 建築、素材等多種垂類。
多圖 vs. 單圖;圖+參考文字/參考圖/搜索頁面/參考鏈接/預識別結果/特定內部參考頁面;多題 vs. 單題;題目類型:單選/多選/多級菜單選擇/填寫4、標註工具——目標框選類
框選類能力涵蓋: 普通矩形、分類矩形、普通多邊形、分類多邊形、區域填色、多級屬性多邊形、Parsing、點+線+區域複合檢測。
5、標註工具——內容評估
用戶行為畫像:對“興趣偏好“屬性進行策略優化,通過第三方人工標註,通過用戶人工貢獻評價, 評估策略優化後的標籤準確率。
要素提取:依據客戶要求對文字內容或槽位進行提取並定位具體屬性。
6、標註工具——圖片&語音轉寫
進行多種語言OCR文字轉寫進行多種口音的語音文字轉寫7、多級質量管控,突破準確率瓶頸
8、根據數據需求類型,覆蓋更多實際應用場景
典型人工智能應用場景
1、計算機視覺數據解決方案
數據採集:根據實際計算機識別模型的要求,採集相應的圖片、視頻內容。
數據加工:將採集內容加工處理:標註關鍵點定位、提取特徵信息打標籤。
模型訓練:將原始數據和特徵標籤數據提交到學習平臺進行訓練,提高識別精度。
識別反饋:進行多次的迭代訓練,最終計算機給予相應的識別反饋信息。
2、計算機視覺應用下的數據方案
1)泰國車輛號牌數據
泰國車牌圖像採集:
採集泰國車輛正面號牌圖像數據通過專業單反相機拍攝真實泰國車牌超過2萬張車輛號牌框選標註:
十字座標對車牌進行定位框選十字座標對車牌字符進行框選對車牌字符按照泰文進行標註2)特殊場景人臉圖像數據
特殊要求人臉圖像採集:
採集指定條件下的人臉圖像照 片通過手機自帶相機拍攝正常、暗光、微光多條件拍攝口罩、墨鏡、帽子多遮擋條件 拍攝人臉圖像標註:
人臉檢測標註:人臉位置框選人臉關鍵點標註:人臉5點-72 點標註3、語音識別數據解決方案
語音識別:喚醒詞、中英文語料、 方言語音識別;
語義理解:多輪對話:上下文可隨時打斷,加入語境分析功能;
自然語言生成:機器翻譯、實時同聲傳譯;
語音合成:中文語音合成、中英文混合語音合成;
漢語方言語音數據採集:
採集指定地區的漢語方言數據;通過手機自帶麥克錄製;四川話/上海話/湖南話等8種方言;安靜/吵鬧環境錄製;語音數據轉寫標註:
中文方言、普通話;轉寫準確率98%;