美國「滴滴」的醉酒特殊服務

美國“滴滴”的醉酒特殊服務

近日公佈的美國專利申請記錄顯示,Uber(優步,類似滴滴打車)申請了一個非常有意思的專利,即用人工智能來識別醉酒乘客。Uber 申請的這項專利名為“Predicting User State Using Machine Learning”,即“以機器學習預測用戶狀態”,由 Uber 的信任和安全團隊提交。在專利描述中,Uber稱他們將研發一個協調系統,該系統使用關於過去在Uber上的行程和行為數據來訓練計算機預測提交行程請求的用戶的狀態(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。簡單來說,Uber會根據用戶使用 Uber App的方式來識別異常行為,預測用戶是否處於醉酒(不清醒)狀態。比如,假設週末的凌晨 1 點,你站在酒吧街區域打車,輸入目的地時緩慢且多次出錯,跟平常工作日的雷厲風行完全不一樣,那麼系統將可以判定你處於不清醒狀態。

美國“滴滴”的醉酒特殊服務

當Uber的這套系統識別出“不清醒狀態”,該系統將調整 Uber所提供的服務。例如為這些用戶安排經過培訓或者有相關經驗的司機,並提前告訴司機乘客的狀態。此外,還可以將上下車地點改在光線更充足的地方,並關閉拼車功能從而保證乘客安全等。而Uber在專利描述中表示,公司希望通過該系統,能夠減少人身安全或嘴角、衝突等令人不愉快的乘車體驗。但是存在一個問題,即這個模型如果使用不當,也會產生負面的影響,其中一個令人擔憂的地方就是人工智能可能會被部分居心叵測的司機所利用。數據顯示,過去 4 年裡在美國至少有 103 名 Uber 司機被指控對乘客進行了性侵犯,其中不少受害者就是在醉酒情況下乘車的。目前,這項專利還未投入使用。

模型理解

我們還不打算從倫理道德來分析這個專利的影響,畢竟這個專利還沒有正式投入使用,我們只是從學術角度來研究模型實現的原理。下圖是整個模型的架構,包括所需求的數據、算法和結果。模型整體的架構如下:當用戶輸入信息將乘坐請求(Request data,圖中1)生成到用戶設備(即手機)中時,系統同時收集關於用戶設備上的用戶活動的信息(Current User Activity Data,圖中2),系統同時同步已經自動生成好的用戶畫像數據(User Profile,圖中3)。基礎數據準好了以後,並進入特徵工程模塊,即系統會基於數據用戶畫像數據(圖中3)和當前用戶活動數據(圖中2)構建用戶特徵數據(圖中4),同時實時收集行程特徵數據(Trip Features,圖中5)。用戶特徵數據和行程特徵數據是特徵工程中重要的兩類模型輸入(Input)。

美國“滴滴”的醉酒特殊服務

主要特徵數據:

“用戶請求數據”和“用戶當前活動數據”。“用戶請求數據”是指用戶在uber的箇中使用請求數據,這些數據生成“用戶當前活動數據”。“用戶當前活動數據”指用戶對手機用戶設備的輸入,以及用戶設備本身的移動行為。用戶當前活動數據可以包括設備處理特性、接口交互特性和文本輸入特性數據。這些數據可能會通過手機中的運動傳感器、設備角度傳感器、GPS和內置在屏幕中的觸摸傳感器等方式來收集。如設備處理特性數據,包括用戶在請求提交時或接近該請求時的速度、用戶在請求時保持用戶設備的角度、設備移動速度。文本輸入特性數據如用戶輸入文本的準確性、選擇搜索結果之前被刪除的字符數等行為數據。接口交互特性數據如在生成uber行程單請求時,用戶可以與多個用戶界面交互,例如設置行程的起始點位置、選擇行程的設置、輸入搜索字符串以確定行程的目的地等等;系統會採集用戶與這些接口交互的速度(例如,在特定輸入屏幕上的平均時間、交互之間的時間),以及用戶與搜索查詢接口的交互速度。

(2)“用戶特徵數據”,通過統計和分析“用戶畫像數據”和“當前用戶活動數據”而得來。“用戶特徵數據”是特徵工程的一個重要部分,目標是構建更有預測能力的變量。比如文本輸入速度以及文本輸入速度的變化率、用戶平均步行速度以及用戶平均步行速度的變化率、點擊行為速度和點擊行為速度的變化率等等。例如,用戶平均步行速度是指在過去的一段時間內步行速度的平均值;而用戶平均步行速度的變化率,是指用戶在當前一段時間內的速度與用戶在過去一段時間內的平均步行速度的比值。

(3)“行程特徵數據”。“行程特徵數據”是從用戶請求數據提取出行特徵的數據,例如與請求的位置、地理和時間特徵。行程特徵可以包括用戶位置、天氣狀況、一天的時間和請求提交是在星期幾。某些行程特徵由系統確定,而不是由請求數據確定,例如時間和星期幾、天氣條件等。

“用戶特徵數據”和“行程特徵數據”都是特徵工程的兩類重要數據。特徵工程中,構建這兩類數據目標是構建更有預測能力的變量。我們利用這兩類數據的歷史數據,通過監督機器學習模型來對數據訓練建模。所謂監管學習就是給定一組學習樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類,這樣的機器學習就被稱之為監督學習。Uber的專利中提到核心算法主要是分類算法如決策樹、支持向量機或神經網絡。用戶狀態預測模型一旦建立了並通過相關的模型檢驗後,即可以對實時的用戶數據進行分析,並利用模型預測用戶的狀態是否為“清醒”狀態。

由於篇幅關係,本文對Uber專利提到的三個算法進行原理性的介紹:(1)決策樹(decision tree)是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習是採用自頂向下的遞歸方法,其基本思想是以信息熵為度量構造一棵熵值下降最快的樹;(2)支持向量機。支持向量機(Support Vector Machine,SVM)是一個常見的分類器,核心思路是通過構造分割面將數據進行分離,一個支持向量機構造一個超平面,或在高或無限維空間,其可以用於分類。(3)神經網絡。神經網絡的作用本質上也是一個分類器,人工神經網絡是一種模仿動物神經網絡行為特徵,進行分佈式並行信息處理的算法數學模型。人工神經網絡由大量的節點(或稱神經元)之間相互聯接構成,每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對於通過該連接信號的加權值,稱之為權重,這相當於人工神經網絡的記憶。目前神經網絡算法已經有幾十種,最近流行的深度學習也屬於神經網絡的發展方向。

我們用一個簡單的示例來更直觀的闡述上述過程。在uber的專利文獻中提到一個例子,見以下表“用戶狀態預測模型數據示例”。表格中,每一行代表一條用戶記錄數據。第一列是加密後的用戶ID,用來唯一區分每個用戶。第二列至第六列是用戶特徵數據(User Features),包括用戶文本的輸入精度、用戶數據輸入速度、按鈕點擊行為、設備的角度、步行速度。第七至第八列是“行程特徵數據(Trip Features)”,包括位置、時間和星期。值得大家注意的是,用戶特徵數據和行程特徵數據只是列了部分變量,並沒有列全,只是為了舉例方便。最後一列“異常狀態識別”是通過模型預測的用戶異常狀態,1代表異常,0代表正常。正如上文提到,用戶的“異常狀態預識別”是通過基於用戶特徵數據(User Features)和行程特徵數據(Trip Features)進行訓練,通過有監督學習的機器學習算法(上文提到的三種算法),建立“用戶狀態識別預測模型”計算得出。

美國“滴滴”的醉酒特殊服務

從預測結果我們可以看到,第一列用戶(用戶ID為28HQ5)為預測為異常用戶,即醉酒的可能性很大。第二列用戶(用戶ID為B24L9)為預測正常用戶。這兩位用戶的差異在於數據輸入精準度(異常用戶精準度更低)、按鈕點擊次數(異常用戶點擊次數更多)、設備角度(異常用戶角度更傾斜)、位置的差異、時間(異常用戶在凌晨兩點多打車)、星期的差異(異常用戶在週末)。從典型的用戶分析也能看到正常和異常用戶的用戶特徵數據和行程特徵數據有顯著的差異。

Uber通過其APP收集到的數據,利用機器學習算法實現的是否處於醉酒狀態的預測,在其他領域也有非常多的應用場景,包括保險、交通安全、金融、安防等領域。在保險領域,如果我們瞭解到某個用戶經常酗酒,那麼該用戶很可能出險的概率就高,對於保險公司來說,並不是最優質的客戶;在交通安全領域,暢想一下,相關的交通管理機構聯合大型互聯網企業做用戶不清醒狀態的預測,如果某用戶醉酒的可能性很大,那麼可以通過互聯網應用來提醒該用戶酒後不要駕駛;在金融領域,以小額貸款為例,如果發現某個用戶老是醉酒,其徵信得分應該有所降低,貸款審核也應該更加慎重。


分享到:


相關文章: