初識機器學習(一)

從去年開始就有參與公司的AI項目,這個參與過程主要是偏執行,即按照要求實現產品某部分功能的需求即可,很少思考各個環節背後的原因是什麼,如何權衡如何做決策,當然,當時的積累也不足以支撐我給意見,更不用說是做決策了。現在成為另一個AI項目負責人之後,AI方案、資源協調、風險管理、成本投入等等所有的事都需要自己去思考、權衡、溝通、解決。


與普通的產品和項目不同的是,AI是產品的核心,所以算法工程師是我最常溝通的對象,必須要理解他們的語言。為了能更順暢的與算法工程師溝通,把控項目質量與風險,特意買了兩本書,開始惡補AI知識,以下是本週的學習成果,分為兩部分:AI的概念和機器學習分類。


AI學習筆記|初識機器學習(一)


一 AI的概念


1、AI的定義


AI(Artificial Intelligence) 人工智能,目前已經成為計算機科學領域的一個重要分支,即讓計算機也像人類一樣學習,通過觀察和訓練,發現事物規律,從而獲得分析問題、解決問題的能力,甚至能超越人的思維和判斷力,我們把計算機學習的方法叫做機器學習,機器學習的結果叫做模型。


2、AI的價值


其實人類絕大多數對事情的認知是基於概率,比如醫生診斷病人,根據病人的症狀再結合理論知識以及多年的經驗,會得出一個大概率的判斷,人工智能的本質就是實現推斷的概率可以無限逼近100%,最終代替人做判斷,節省人力成本,以及幫助解決一些人類未知的問題


3、AI的產品形態


AI的產品形態類似一個“中間件”,不直接與用戶完成交互,需要藉助傳統的應用程序,應用程序直接與用戶進行交互,同時提交輸入數據給模型,模型處理後返回輸出數據給應用程序,應用程序再轉化為合適的呈現方式反饋給用戶。


二、機器學習的分類


1、有監督學習


在大人教導小孩認識事物時,比如認識一隻大熊貓,大人一般會對著熊貓的照片這麼教導:你看,大熊貓的體型很大,頭圓圓的,有黑白相間的毛,喜歡吃竹子...,當小孩聽多了或者見多了的時候,腦子裡慢慢的會形成一種直觀感覺,並記住熊貓的特徵,讓下次再遇到大熊貓時,不需要大人告訴,自己也能認識,這個過程其實就是有監督學習。


有監督學習算法最常見的應用場景或領域:如語音、文字、圖像識別等。基於海量帶有標籤的樣本庫訓練模型,並落地產品化,如語音助手、人臉識別等產品。


2、無監督學習


在小孩長大成年後,對於世界的認知不再侷限於其他人的教導和答案,而是在看了大千世界之後,形成了自己的標準答案,比如關於審美標準:他就認為短髮、小個子的女生就是美女,那麼在下次遇到這一類型的女生時,大概率也會將她歸在美女這一類,這個過程就叫做無監督學習。


無監督學習的訓練集使用的無標籤的數據,即每一條數據沒有正確答案,所以其目標不是告訴計算機怎麼做,而是讓計算機自己學習怎麼做,自己去探索數據並找到數據之間的規律。通常採用相似度計算的方法找到規律訓練模型,對於新樣本,計算新樣本與原樣本的相似度後,模型即可按照相似程度進行歸類,即我們常說的“物以類聚,人以群分”。


無監督學習常見的應用場景:如用戶群體劃分、用戶畫像,通過無監督學習識別有相同屬性的用戶群,為互聯網營銷活動提供決策支持。


3、半監督學習


對於有監督學習來說,其前提是需要海量帶有標籤的訓練數據,而在如今數據爆炸的時代,想要給數萬億的數據打上標籤是一件工作量非常大的事,所以往往只能拿到少量帶標籤的數據,這種情況不適合使用有監督學習的方法。


半監督學習就是為了解決該問題,顧名思義,是結合有監督學習和無監督學習的一種學習方法,利用海量未帶標籤數據,輔之以帶標籤的數據進行學習訓練,增強計算機的學習能力。


4、強化學習


當小孩不好好吃飯時,大人不直接告訴他做錯了,糾正他的錯誤,而是通過比如生氣或者處罰等方式給予反饋;當表現的不錯乖乖吃飯的時候,大人也不直接正面誇獎做的對,而是通過送小禮物等方式給予激勵,經過多次反覆“訓練”之後,小孩就會知道不好好吃飯是一個不好的行為,這個過程就是強化學習。


強化學習又稱為再勵學習、評價學習或增強學習,是在沒有任何標籤的情況下,先嚐試做一些動作得到一個結果,通過這個結果的反饋調整之前的行為,通過不斷的調整,算法強化自身的決策能力,最終能夠通過不同的情況,獲得不同的決策能力。


強化學習最經典的應用就是:alphago圍棋人工智能程序,針對圍棋的複雜性,結合有監督學習和強化學習,訓練形成了一個決策網絡模型,在2016年3月戰勝了世界圍棋冠軍李世石。


三 小結


本文主要介紹了AI的相關概念以及機器學習的四種方法。機器學習的本質就是讓計算機學習人類,通過觀察大量的數據發現事物規律,或者甚至比人類更強的分析與解決問題的能力。而四種機器學習方法也各有特點:

(1)有監督學習:依賴帶有標籤的訓練集,找到事物特徵與標籤之間的映射關係,適合解決分類問題,也是目前相對來說應用最多,最為成熟的機器學習方法。

(2)無監督學習:不需要帶有標籤的數據作為訓練集,通過相似度計算等的方式找到規律,將數據進行整理歸納,適合解決聚類問題


(3)半監督學習:在帶標籤的訓練數據有限的情況下,結合有監督和無監督學習的方法,增強計算機的學習能力,以提高學習的準確率。

(4)強化學習:預先沒有數據,通過與環境交互後給予的反饋調整算法,推導規則,適合解決決策類問題

這四種機器學習方法並無優劣之分,可根據具體的問題和需求,應用於不同的業務場景。

end


分享到:


相關文章: