經濟觀察報: 「數據尾氣」的好奇心日記

[讀寫人(duxieren.com)文摘] [文章來源:經濟觀察報]

當一名女子在社交媒體上大秀和老公恩愛的時候,她會在谷歌上搜什麼?如果她在谷歌上打出的問題是“我老公是不是……”,她最有可能搜的問題又是什麼?

以一般人對社交媒體的瞭解,大多數人都希望秀給外人看自己雕琢的一面。同樣大多數人在搜索時,常常會暴露自己真實的想法。有評論者說地好,“千萬別把自己的搜索和別人秀在朋友圈裡的去比”。以此類推,大多數人很容易猜測,她搜索很可能是:“我老公是不是出軌了?”

現實世界因為搜索和社交媒體的出現而變得更為紛雜,卻也製造了更多的“數據尾氣”,給了有好奇心,又敏感富有創造力的研究者更多機會去探究這個世界到底是怎麼運作的。《紐約時報》的專欄作家賽斯·斯蒂 芬 斯 -大 衛 德 維 茨(Seth Stephens-Davidowitz)在新書《Every-body Lies》(《人人都會說謊》)中告訴我們,實際上,當一名女子在谷歌上打出這樣一個問題:“我老公是不是……”,她最有可能問的問題是:“我老公是不是同性戀?”,比“我老公是不是出軌了?”的搜索量高出10%。

我們憑著自己直覺去思考分析數據,結果卻常常發現一些反常識的現象,這樣搜索的結果只是《人人都會說謊》中舉出的一個例子。斯蒂芬斯-大衛德維茨認為谷歌的搜索是最具解釋性的新鮮數據集。的確,在書中作者引用了不少谷歌數據和相關性研究的數據,都發人深省。但有鑑於作者曾經擔任谷歌數據科學家的身份,我們必須對書中頻繁出現的谷歌搜索案例打個折扣。

現實世界中,每個人都有撒謊的動因。當參加民意測驗的時候,我們不願意暴露自己真實的想法。比如美國人在民調中不真實的回答可能導致特朗普在大選前的民調比希拉里低了兩個百分點。研究者稱之為社會期望偏差(social desirability bias)。有時候我們對自己撒謊,是因為“自欺欺人”的動因,很可能自己有好高騖遠的想法,或者宏大的計劃,卻無法抵擋住誘惑。比如我們宣稱要讀高深的讀物,其實對小道消息津津樂道;聲稱自己喜歡文藝片,其實還是還是對火爆大片很感冒。

互聯網則給出了越來越多讓人們說出真實想法的平臺,比如說搜索。而移動互聯網和物聯網的發展,更讓謊言無法遁形,因為行動的數據不可能摻假,作者稱之為數字的真實血清(digital truth serum)。

大數據的實用菜譜

數據尾氣的無處不在,讓我們有可能發掘出更多新鮮的大數據。新鮮大數據的價值,並不在其大,而在其新——給予研究者以新的信息可以研究,特別是之前從沒有蒐集到的數據。

數據之新,還在其非常規和非結構化。每個人留下的數據尾氣就是這樣一種——混雜的,無處不在的,海量而呈現為信息流的——正日益成為最為重要的數據集。作者斷言,結構化的、清晰的、簡單的信息將一去不復返了。新鮮數據的例子很多,比如說文本的信息,大數據現在已經能夠識別和處理大量的文本信息;又比如圖像的信息,依據小衛星圖像識別出的信息已經被用於很多經濟分析領域。

數據的真實也很重要。谷歌搜索就是一個例子。而移動互聯與物聯網的發展,讓每個人的行動都得以被捕捉,這樣的數據比起一般人回答調研題目給出的答案要真實地多。

此外,大數據因為其龐雜,也給了研究者聚焦特定地域和特定人群進行研究的機會。不同國家搜索的數據就能反映出不同地方的文化差異。比如說老婆懷孕了,美國人和墨西哥人的搜索就大不同。在墨西哥,老婆懷孕了之後,搜索最多的句子是:“向我懷孕的老婆表達愛的詞”;或者“給我懷孕的太太的詩”;在美國,最常見的搜索則包括:“我老婆懷孕了,現在該怎麼辦?”或者“我老婆懷孕了,我該怎麼做?”

最後,IT平臺的出現也讓隨機對比實驗變地更容易。谷歌是這方面的能手,它最早把這種A/B實驗運用在網上,不斷隨機比對不同的網頁設計,不斷微調找出最好的設計吸引用戶點擊廣告。

“吃瓜群眾”很重要

“吃瓜群眾”變成了一個流行的詞,用以凸顯與精英的不同取向。《人人都會說謊》恰恰告訴我們,大數據和“吃瓜群眾”關聯緊密。首先,大數據讓我們能夠更好地去了解“吃瓜群眾”的想法。其次,大數據也給了我們更好的基礎去分析和研究怎麼去改變“吃瓜群眾”的一些錯誤的想法。

美國同樣有“吃瓜群眾”。《人人都會說謊》中有兩個案例特別印象深刻。

第一個案例是美國“吃瓜群眾”常見的看法——窮人更容易入選NBA。這種傳統的想法認為,NBA給了窮人家的孩子(特別是黑人的孩子,因為黑人佔NBA球員比例非常大)一條出人頭地的出路,因此窮人家的孩子會特別努力,肯吃苦,而中產家庭的孩子缺乏這樣的努力與吃苦精神。

現實是這樣麼?大數據分析顯示,恰恰是中產家的孩子更有可能被NBA選秀。首先,NBA需要個子高,而家境比較好的孩子更容易長高——那些吃救濟、單親家庭的孩子很可能成長階段營養不夠。其次,NBA不僅需要高個子和體能,也需要團隊配合能力,需要比較高的情商。而美國的窮人很可能生長在單親家庭,單親家庭的孩子可能缺乏情商教育,可能很離群。現實很殘酷。“吃瓜群眾”對苦孩子“能吃苦更努力”的一廂情願在大數據面前不堪一擊。

第二個例子是虎媽們的想法——高中進名校是未來進好大學找到好工作的敲門磚。紐約就有這麼一所特別著名特別難進的公立高中Stuyvesant High School,能上這所高中,基本上就等於拿到了進入常春藤大學的錄取通知書,也擁有了進入上層中產的入門券。研究者就問了,到底是學校優秀讓學生可以有更多機會,塑造了孩子的未來,還是通過激烈競爭脫穎而出的學生本身就很優秀?大數據給瞭解答這一問題的機會,因為這所高中的錄取完全看分數,分數線人為地創造了一組自然實驗——有人恰巧跨線而得以錄取,有人卻因為一兩分的差距而落榜。對比在分數線上下差別不大的兩組人未來的發展情況,有助於回答研究者的問題。研究結果讓虎媽們大跌眼鏡。是否進入頂級高中對於這兩組人的未來沒有太大的影響,決定一個人未來最大的因素是他的才智和衝勁。

兩個例子之所以發人深省,因為類似的執念在中國更多,我們是否也可以多提出些問題,讓大數據的研究告訴我們真實的世界到底是什麼樣子?比如因為一分之差沒有考入北大的同學,和那些幸運跨線的同學,十年之後到底會有多大的差距(還是沒有)?或者用大數據來分析一下,農村的孩子在當下大城市裡成功的機會到底有多少?

斯蒂芬斯-大衛德維茨說自己在大學畢業時讀了《魔鬼經濟學》,一下子被運用好奇心、創造力和數據就能極大提升我們對這個世界的認知而吸引,立志要從數據的群山中找出現實世界到底如何運作的真相。我也很希望更多年輕人讀了斯蒂芬斯-大衛德維茨的這本書,能夠開始用好奇心去打量我們所處的世界,依靠大數據來挖掘更多真相。未來的世界,最不缺的是數據,缺的是那雙好奇又富有創造力的眼睛。

(作者為《經濟學人·商論》主編)

原文鏈接:http://www.eeo.com.cn/2017/0815/310640.shtml

走廊網: 文化頻道|生活頻道|創意&視覺頻道|IT頻道


分享到:


相關文章: