DAD:距離下個國慶還有356天,此刻你需要靜心期待

7天國慶假期一晃而過,還是應了那句“美好的時光總是短暫的”,不經意間我們又停留在了對下個國慶的殷殷期盼中。從放假前的歡心期待,到7天假期人山人海痛並快樂的煎熬,再到此刻迴歸工作又陷入對下個國慶的期待;恰如去年9.4我們對牛市的期許,當泱泱牛市一閃而過,此刻我們又陷於漫漫熊市期待下個牛市一樣,漫長的等待是常態,但卻因為心中有了期待而不再煎熬。於節後上班第二天(第一天AD君的假期綜合徵跟你們一樣嚴重),DAD特此溫馨提示:距離下個國慶還有356天,此刻你需要靜心期待,厚積方能薄發。因此,2018國慶節後第一發:AD君帶你瞭解DAD數字廣告平臺的關鍵技術,牛市從此刻開始!

DAD:距離下個國慶還有356天,此刻你需要靜心期待

先粗略的瞭解一下DAD廣告投放系統框架:

DAD:距離下個國慶還有356天,此刻你需要靜心期待

DAD廣告投放系統主要由DAD廣告投放引擎、DAD廣告流計算平臺、DAD廣告離線計算平臺和外圍輔助軟件設施組成。

DAD廣告投放引擎是直接面向移動端和PC端流量的高可用高併發低延遲服務,將廣告主投放需求和用戶興趣標籤動態結合,實時完成廣告投放。

DAD廣告流計算平臺完成準實時的控制任務,包括流量反作弊識別,廣告主預算扣費,用戶標籤更新。

DAD廣告離線計算平臺完成全量點擊模型訓練和離線特徵更新,為廣告效果提供保障。

外圍輔助軟件設置包括但不限於結構化和非結構化存儲中間件、可視化軟件工具、ETL組件和消息中間件,使整個投放體系能夠高效而有序地運轉。

那麼,DAD數字廣告平臺有哪些關鍵技術?

技術詳解:

廣告信息快速檢索技術

當在線投放廣告數量超過十萬量級時,高性能的廣告投放條件過濾、基於流量上下文的相關性檢索技術是廣告投放系統面臨的一大挑戰。解決這類問題的基本思路在於在檢索階段引入某種評價函數,再用合適的數據結構和算法完成檢索加速。當選用線性評價函數並且各項權重為正時,可以用WAND算法進行檢索加速從而滿足高併發低延遲的在線實時廣告投放需求。

DAD:距離下個國慶還有356天,此刻你需要靜心期待

當不考慮餘弦距離中的歸一化分母時,可以用該線性評價函數做近似的預評估。其中F(a)和F(c)分別表示廣告a和上下文特徵c上不為0的特徵集合,比如查詢中的關鍵詞,表示t這個特徵在廣告a上的貢獻值,即關鍵詞t在某廣告a中的TF-IDF,而則表示關鍵詞t在上下文中的TF-IDF。利用該線性函數,可以使用WAND算法實現非常使用的快速檢索算法。

DAD:距離下個國慶還有356天,此刻你需要靜心期待

上圖是基於WAND算法的檢索過程,為關鍵詞(Term)建立一條倒排索引鏈表,鏈表中每一項是包含該關鍵詞的廣告ID,用陰影表示。算法維護了一個top-K的小頂堆(min-heap)結構,檢索過程迭代地執行以下兩步:

將各關鍵詞對應的倒排鏈按照其最小的文檔ID升序排列。

按照第(1)步的升序依次訪問各關鍵詞t,並累加其對應的到U,直到U大於堆頂。設此時到達第n-1個關鍵詞,如果第0個關鍵詞的倒排鏈和第n-1個關鍵詞倒排鏈的最小文檔ID一致,則計算該文檔準確的相關性,如果仍然大於堆頂,則將該文檔推入堆;如果最小文檔ID不一致,則說明該候選無勝出可能,於是在前n個關鍵詞倒排鏈中挑選一個,將鏈表頭跳到第n-1個關鍵詞倒排鏈的最小文檔ID,然後跳轉至第(1)步。

廣告受眾定向技術

要提高廣告的投放效果,受眾定向是非常核心的技術之一。受眾定向技術是對廣告,用戶和內容這三個維度提取有意義的標籤的過程,製作完成的標籤將幫助建立面向廣告主的流量售賣體系,以及為算法模型(如CTR預估,重定向等)提供原始特徵。

DAD:距離下個國慶還有356天,此刻你需要靜心期待

圖:廣告,用戶和內容空間中的標籤示意

通過分析用戶在不同類別網頁的瀏覽記錄和用戶歷史所在地域信息將得到用戶的興趣標籤和地域標籤,而這些都是需要根據用戶的歷史行為進行挖掘,且涉及的數據量級隨著時間軸的拉長而呈線性增長,需要特定的數據模型對其進行加工和處理。這裡我們引入了滑動窗口法和時間衰減法這兩種模型來針對不同的場景進行使用。

在滑動窗口方法中,設定用戶行為的時間窗口長度為D,那麼該時間窗口的累積特徵值x’就可以用以下公式表示(其中x表示特定時間片段內的單特徵值):

DAD:距離下個國慶還有356天,此刻你需要靜心期待

在時間衰減法中並不會設定一個時間窗口,而是使用一個衰減因子β,用上一個時間片段累計的特徵疊加本時間片段的特徵而得到今天累積的特徵值x’:

DAD:距離下個國慶還有356天,此刻你需要靜心期待

DAD:距離下個國慶還有356天,此刻你需要靜心期待

在實際的廣告投放中,為了投放更精準、轉化效果更好,時間窗口D的取值會傾向於最大化,這就導致實際在億級別用戶的場景下數據的量級將不是一般的機器所能處理得了的,需要藉助離散計算框架如hadoop等進行分佈式計算,而為了最小化計算和存儲資源,時間衰減法是工業領域的首選。

通過以上方法制作的標籤,在不同的廣告投放中的效果會有差異,同時其精準性(一般使用click through rate即CTR來衡量)會隨著展示的量級增長而下降,那麼通過reach/CTR曲線來評測標籤的預估投放效果,同時可以藉助曲線來調整以上模型參數最終達到投放效果最優化。

DAD:距離下個國慶還有356天,此刻你需要靜心期待

圖:reach / CTR 曲線

作為新一代的區塊鏈數字廣告平臺,DAD致力於通過區塊鏈技術重塑廣告生態,讓廣告生態更具信任和透明。我們拭目以待!

關於DAD

DAD是新一代區塊鏈數字廣告平臺,致力於通過智能合約和Token經濟重塑廣告生態。後續我們會推出更多活動,想要獲得DAD第一手資訊?現在就請關注我們吧!


分享到:


相關文章: