爲什麼你的數據分析報告,總被領導打回?

源:與數據同行

咱們先來設想一個場景,一個會議室裡坐滿了人,正在做報告的年輕人西裝筆挺,頭髮書的一絲不苟,PPT上列滿了數據和圖表,他正在論證一個什麼東西。年輕人講了很多,可是在臺下聽報告的一個穿著隨意的大佬,有點不耐煩了:“你不用說那麼多,我就問你幾個問題。”

大佬問了幾個問題,年輕人馬上被難住,於是大佬否決了年輕人的整個方案。

我們對這個場景並不陌生,這可能是一次數據分析會,一次跟主管的建模方案彙報,或是你去見一個客戶彙報成果,在一線做事的人用了很多精力專注於各種細節,這在數據分析師和建模師身上表現尤為明顯,可是大佬想問問題卻往往是寫意的-他們三言二語就能發現問題的關鍵,並以此做出決策,然後事實證明大佬們說得對。

這就引出了一個問題,有些人數據分析做過大量功課,熬了一週甚至一月,掌握了豐富的數據和資料,為什麼他們的決策水平,反而不如大佬們短短時間內的快速判斷呢?難道說,對一個問題思考得多,反而沒好處嗎?

這個問題,其實數學家早就想明白了,可以用建模中的“欠擬合“和”過度擬合”這兩個概念來形象的比喻。

欠擬合其實很好理解,就是指學習的不夠,只把樣本數據的部分特徵習得了,或者樣本變量本身就不夠,然後得出以偏概全的結論,盲人摸象這個成語最形象的表達了欠擬合,大佬經常一針見血,是因為有經驗的人在其專業領域模式識別、見微知著的能力遠超常人,這也是很多決策領域機器搞不過人的一個原因。

過擬合就是指把學習進行的太徹底,把樣本數據的所有特徵幾乎都習得了,於是機器學到了過多的局部特徵,過多的由於噪聲帶來的假特徵,造成模型的“泛化性”和識別正確率幾乎達到谷點,於是你用你的機器識別新的樣本的時候會發現就沒幾個是能正確識別的,過於精確寫實往往丟失事物的本質特徵。

打個形象的比方,給一群天鵝讓機器來學習天鵝的特徵,經過訓練後,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的彎曲的,天鵝的脖子是長長的有點曲度,天鵝的整個體型像一個“2”且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了,然後,很不巧你的天鵝全是白色的,於是機器經過學習後,會認為天鵝的羽毛都是白的,以後看到羽毛是黑的天鵝就會認為那不是天鵝,前面的規律是全局特徵,所有的天鵝都有的特徵,是對的。

然而,天鵝的羽毛是白的只是局部樣本的特徵,機器在學習全局特徵的同時,又學習了局部特徵,這才導致了不能識別黑天鵝的情況。

經常聽數據分析師嘮嘮叨叨一大堆,陷入細節而不可自拔,是時候祭出這張圖片了,領導要的可不是那個你自己想象出來的貓!

為什麼你的數據分析報告,總被領導打回?

因此,如果你的數據分析涉及決策判斷和預測未來,那麼就可能有這兩個根本問題,那麼,如何避免這兩種尷尬的狀態呢?

針對欠擬合,筆者認為需要有效利用群體智慧的力量,其實筆者在最早的一篇微信文章《六脈神劍?大數據時代下經營分析師的挑戰》提到過這個方法:

大多數據分析師(無論是經營分析師,數據分析師或者數據建模師等等)都是孤獨的,在面對一個新的分析課題時,總會面臨著對新形勢的莫名緊張,加班加點是常有的事,而且感覺分析的事情很難分享和合作。

但由於每個人的能力和視野有限,因此分析欠擬合現象很普遍,也很正常,不是沒考慮這點就是那點,但一篇報告要過大佬的關,往往需要做到滴水不漏。

那個時候,三個“臭皮匠”往往是有效的,很多專業公司來企業做諮詢方案,後援團隊會非常強大,這可不僅僅是氣勢問題,Google公司在它的How Google works提了一個觀點,大家所以匯聚到公司來上班,是因為合作能讓創意更好的迸發,創意精英聚在一起,能夠產生巨大的化學反應,這是團隊所以存在的根本,這個理念對於分析師團隊同樣適用,對於分析師來說,即使是1+1>1.5,也是可以接受的。

創新的組織,比如大數據組織,應該為分析師創造新的合作環境,每個分析師都應該以開放的心態接納他人,連接,是新時代的需要,對於分析這個東西,需要的是更廣的視野,更深的思考,更多的角度,再強的個人總會有沒有想到的角度,如果企業的分析總是受限於個人視野,何來持續競爭力?

筆者以前有多次與團隊成員連夜寫分析報告的經歷,有一次跟有才(同事綽號)臨時接到一個過度優惠的分析報告任務,當天下午佈置,第二天上午部門就要提交,怎麼辦?

咱倆就充分發揮協作的力量,充分討論,直到每個結論雙方都找不到明顯的暇紕為止,第二天上午一次過關,筆者將這個歸結為團隊的力量,在這個開放、分享、透明的年代,數據分析師一定要懷有謙卑的心態,敞開胸懷迎接他人,個人英雄主義很難有市場。

針對過擬合,數據分析師除了提升自己的業務能力和換位思考的能力外,現實中可以採取多人交叉分析驗證的方法來避免個人侷限性,當然這個代價是有點大的,這裡給出三個執行性建議。

第一,限定分析時間,寫報告時間越長,邊際效益越低,30天寫出的東西往往跟一週相差無幾,反而是在有時間限制的情況下,你才會逼著自己去考慮最重要的因素,或者乾脆先找大佬或他人商量下。

第二,限定內容長度,領會電梯談話的精髓,你的結論如果一頁講不清楚,你就應該考慮有沒有抓住問題的核心,很多時候大佬沒那麼多時間,往往是直接先看結論再看論據的,結論不吸引人再多的數字都沒意義。

第三,找個白板討論,這是他人的一個建議,要使用粗的馬克筆,筆畫越粗,對你的思維越有利,越能逼著你去考慮大局,有個詞叫作蠟筆效應。

筆者用欠擬合和過擬合來表達數據分析中的困境,可能並不是很適合,但道理就是那些道理,希望於你有些啟示。


分享到:


相關文章: