產品經理也能動手實踐的AI（五）- IMDB電影評論NLP，協同過濾技术頭條網

產品經理也能動手實踐的AI（五）- IMDB電影評論NLP，協同過濾

2019-04-13 15:30:36 增長浩克

上一節講了多標籤識別，圖像分割和data block，這之前講的都是圖像識別的方法，今天一節課把剩下的3種核心領域都講了：自然語言處理，表格數據處理，協同過濾，並且把神經網絡層與層之間的微觀活動也都詳細的描述了一遍，可謂是乾貨滿滿。

1.概覽

首先是自然語言處理 NLP（Natural Language Processing ），主要講解通過遷移學習來實現IMDB評論的正負面情緒分辨；
然後是根據個人信息的數據，預測哪些人可以獲得高薪；
最後是協同過濾，在用戶喜歡了一些電影之後，可以預測某個他沒看過的電影是否會喜歡。

2.1核心流程

NLP - IMDB情緒分析大概需要3步，建立宏觀的語言模型，利用的是Wikipedia的數據訓練的模型；然後是根據IMDB的數據訓練定向的電影行業語言模型；最後是用訓練好的語言模型，訓練一個正負面情緒的分類器。

表格數據處理-薪資預測：主要是把類別變量轉化成連續變量，比如職業、婚姻情況等……會轉化成0，1，2這樣的數字；然後通過processor進行預處理，然後就可以訓練了。

協同過濾-推薦喜歡的電影：流程都一樣，只不過使用特殊類型的CollabDataBunch，以及特殊的collab_learner。

2.2核心機器學習概念

參數 weights/parameters：用於計算的參數/權重矩陣
激活 activations：計算後的結果，包含矩陣運算後的結果和激活函數運算後的結果
激活函數 activation functions：一般是ReLU函數，只改變內容不改變size

3.1實例詳細分析（NLP）

建立宏觀的語言模型，利用的是Wikipedia的數據訓練的模型（Wikitext 103）；

"I'd like to eat a hot ___":
Obviously, "dog", right?
"It was a hot ___":
Probably "day"
不需要label，因為每個next word都是一個label，這種方式叫自監督學習；

然後是根據IMDB的數據訓練定向的電影行業語言模型；

準備數據：read from csv
token化：把一句話拆成一個個詞，不常用的詞會用xxunk，xxpad之類的統一代替，成為vocab詞彙表
數字化：把一個個詞，轉化成一個個數字，像這樣array([ 43, 44, 40, 34, 171, 62, 6, 352, 3, 47])
創建databunch
創建learner：會用到dropout和regularization參數，之後會講
訓練：得到的模型叫encoder
調整

最後是用訓練好的語言模型，訓練一個正負面情緒的分類器；

text_classifier_learner
learn.load_encoder
freeze_to：解凍後幾層，而不是全部解凍，這樣可以訓練處更高的準確率

3.2實例詳細分析（tabular & collab）

流程上沒什麼新東西，就不展開來說了

3.3原理詳細分析（神經網絡訓練過程）

整個過程如下圖，先輸入一個[10,20,30]的vector，然後和一個3*N的矩陣相乘，得到一個結果，再把結果用激活函數處理成更劇本特徵量的結果，在進行矩陣乘積，直到最後的輸出。

輸出結果一般會使用sigmoid函數將其轉化成0，1區間內的額值，然後再和驗證組的數據進行比對，求loss，然後進行SGD，最後得到了一個93%準確度的擬合出的函數。

Jeremy還用excel演示了一下這個過程，真的是對大神佩服的五體投地，用excel訓練神經網絡，對就是這樣。

首先這裡是用於訓練的數據，14號用戶對27號電影的評價是3顆星，滿分5顆星。

然後隨機生成了2組矩陣，分別給用戶和電影，相當於weights

實驗的目標是要預測空白處的值，比如293號用戶對49號電影的評價是幾顆星？

下面開始初始運算，運用點積運算，將每個空格填上，其實就是2個矩陣的矩陣乘積的結果

這時候就可以看第一次運算的結果和實際結果的偏差，計算出的loss是2.81，接下來去調整weights然後降低loss，即SGD的過程，就可以得到一個好的模型了。

4.最後

這一期可能需要多看兩遍，反正我是2-3遍之後才能基本吃透裡面的概念，因為一開始真的沒那麼好懂。

分享到:

閱讀更多 增長浩克 的文章

關鍵字: 協同人工智能一節課

產品經理也能動手實踐的AI（五）- IMDB電影評論NLP，協同過濾

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？