課程名稱:算法分發原理(上);
課程講師:塔娜(中國人民大學講師);
課程時間:11月22日;
1、 算法分發系統概覽
二、用戶建模和分析
1、用戶建模
用戶 畫像(User profile/ portrait)
根據用戶的社會人口屬性、生活習慣、消費行為等信息而抽象出的一個標籤化用戶模型
構建用戶畫像的核心工作是給用戶打"標籤"
"標籤"是對用戶信息分析得來的高度精煉的特徵標識
舉例:經常購買玩具→"有孩子"
2、用戶畫像的作用
精準營銷:分析產品潛在用戶,定向特定群體
用戶統計:中國大學購買書籍人數TOP10
數據挖掘,智能推薦:利用關聯規則計算,喜歡紅酒的人通常喜歡什麼運動品牌
效果評估,完善產品運營,提升服務質量
服務/產品的私人定製:個性化服務某類群體甚至每一位用戶
3、 用戶畫像構建流程
例:頭條用戶標籤體系
興趣特徵:
感興趣的類別和主題
感興趣的關鍵詞
感興趣的來源
基於興趣的用戶聚類
各種垂直興趣特徵(車型,體育球隊,感興趣股票)
身份特徵:
性別
年齡
常駐地點
行為特徵:
晚上才看視頻
模型:
每個用戶就是一組標籤的集合
標籤可以設置不同的權重
用戶畫像的初始化——怎樣解決"冷啟動"?
擴充數據來源:通過微博/微信登陸,獲取更多信息
手機的機型,用戶的位置,
4、為用戶設置/調整標籤有哪些策略?
過濾噪聲:過濾停留時間短的點擊,打擊標題黨
懲罰熱點:用戶在熱門文章上的動作做降權處理
時間衰減:隨著用戶動作的增加,老的特徵權重會
隨時間衰減,新動作貢獻的特徵權重會更大,
懲罰展現:如果一篇推薦給用戶的文章沒有被點擊,
相關特徵(類別,關鍵詞,來源)權重會被懲罰
考慮全局背景:考慮給定特徵的人均點擊比例
三、內容建模和分析
1、文本分析
對文本的表示及其特徵項的選取
文本挖掘、信息檢索的一個基本問題,使用從文本中抽取出的特徵詞進行量化,表示文本信息
非結構化→結構化,可處理的
基本技術:分詞、詞頻統計
例:我/在/中國人民大學/讀博士。我/在/.上海/開會。
向量空間模型:描述文本向量
向量空間降維:特徵(feature) 選擇
2、文本分析在推薦系統中的作用
用戶興趣建模(user profile) :
例如:給喜歡閱讀[ 互聯網]文章的用戶打上[互聯網]標籤
給喜歡[小米]新聞的用戶打上[小米]標籤
優化內容組織:
例如生成頻道內容: [德甲] 的內容進[德甲頻道]
幫助內容推薦:
[魅族]的內容推薦給關心[魅族]的用戶
[Dota]的內容推薦給關心[Dota]的用戶
3、文本特徵在推薦過程中的特殊作用
沒有文本特徵,推薦引擎無法工作
協同類特徵無法解決文章冷啟動問題
粒度越細的文 本特徵,冷啟動能力越強
例如: [拜仁慕尼黑]> [ 體育]
4、頭條推薦系統抽取的文本特徵
語義標籤類特徵:顯式地給文章打上語義標籤,每個標籤
有明確的意義,標籤體系是預定義的
隱式語義特徵:主要是topic特徵和關鍵詞特徵,前者無明
確意義,後者無明確集合
文本相似度特徵:哪些文章說是一件事?哪些文章內容基
本一樣? (去重, 相似推薦)
時空特徵:分析文章說的事情發生在哪裡,有沒有時效性
四、推薦算法
1、典型推薦算法
2、協同過濾算法(Collaborative Filtering)
推薦系統領域最基本、應用最為廣泛的算法
通過分析和利用用戶的歷史行為來給用戶的興趣建模,並根據用戶的興趣為用戶做出推薦。
基於用戶CF:最早被應用於郵件過濾和新聞推薦中
基於物品CF:最早由Amazon推薦系統的專家提出,在商業界廣泛應用
3、基於用戶的協同過濾算法
基本假設:一個用戶會喜歡和他有相似興趣、喜好的用戶
群喜歡的物品
4、基於物品的協同過濾算法
基本假設:用戶會喜歡和他以前所喜歡的物品相似的物品
推薦時,首先從用戶行為歷史數據中檢索他之前喜歡過的
物品集合,然後從尚未推薦的物品裡找到和他喜歡過的物
品相似的物品,進行推薦
5、比較:基於用戶vs基於物品
基於用戶:更加社會化,反映基於社交關係的興趣
新聞推薦
基於物品:更加個性化,反映用戶自身喜好
電商推薦
融合使用
6、典型推薦特徵
7、推薦系統的數據依賴
推薦模型的特徵抽取需要用戶和內容的各種標籤
召回策略需要獲取用戶側和內容側的各種標籤
用戶標籤挖掘和內容分析是搭建推薦系統的基石
課程總結
算法 分發系統概覽
用戶側內容側算法分發反饋優化的過程
用戶建模和分析
建模成一組標籤的集合
用戶標籤建得越細緻越多推薦的效果越好
內容建 模和分析
文本性內容的分析方法
推薦算法
基於用戶和物品的協同過濾