王小喬:大數據與數據新聞

大數據改變新聞生產的方式

下面這張圖的製作背景是2015年的8月12號,天津大爆炸發生的時候,當時我們用工具調取了前後十天的阿里巴巴幾個平臺上的相關商品的銷售數據,包括外賣、口罩、空氣淨化器,還有礦泉水。

圖上可以很明顯的看出來,在大爆炸發生之後的幾天裡,這幾種商品發生了指數級的增長。

數據新聞大咖談 | 王小喬:大數據與數據新聞

當時我們團隊剛剛成立,也在懷疑,大數據在新聞業中是什麼樣的定位和地位。這張圖讓我們看到,大數據真的在直接地改變了新聞的生產要素。傳統的五要素,五個W還加上一個H,現在Data也成了一個非常重要的新聞要素

大數據改變人們看世界的方式

再看這張圖,兩位德國的可視化設計師收集了紐約的城市共享單車數據,把使用者的路線軌跡製作成了動態地圖,能夠很清楚地看到城市的變化。

數據新聞大咖談 | 王小喬:大數據與數據新聞

這張圖是靜態的,如果是動態,加上時間因素之後,可以非常清楚地觀察到紐約的早晚高峰。摩拜也做過類似的動態地圖,放在一起看就非常有意思了,可以看出幾大全球超級城市因人流而帶來的生態的變化。

大數據中蘊藏新的服務信息

新聞除了提供信息之外,還有很重要的一個任務是給普通民眾提供服務性信息,大數據在這裡面能起到什麼作用?

數據新聞大咖談 | 王小喬:大數據與數據新聞

這張圖是我們2016年12月份在霧霾季到來的時候做的選題。我們把2013年到2015年的40萬條pm2.5的數據和每一個時間段的天氣數據做了分析,最後生成了一份北京、上海、廣州、瀋陽、成都五個城市的數據圖。灰色方格代表完全不應該跑步,淺綠色是較適宜跑步,深綠色是最安全的。

我們現在進入正題,我們作為新聞從業者,需要哪些思維和技術上的提升?

分別有四個方面:

第一,什麼話題適合用數據來呈現?

第二,數據採集以及數據挖掘的基本方法,這個是以往的傳統新聞採寫過程當中所沒有的。

第三,怎麼看待以及使用交叉數據,究竟除了做新聞之外,還有沒有一些更大的意義和價值?

第四,怎麼去挖數據、可視化,這樣的新聞報道形式和傳統新聞報道相比有沒有相同的方法論,還是有一些不同的方法論?

一、什麼話題適合用數據呈現

  • 有感受,無量化

2016年的時候,羅永浩因為一連串的負面新聞被大家注意到,之後我們發現他自己在微博上並不活躍,很少去回應這些負面的問題。這和羅永浩以前的“網紅”形象差別是非常大的。

這是一個很模糊的感受,並沒有什麼數據的支撐。於是我們扒了微博的數據。

數據新聞大咖談 | 王小喬:大數據與數據新聞

  • 有個案,無全貌

第二種非常適合用大數據呈現的新聞:有著非常豐富的個案,但是沒有全局的數據。

數據新聞大咖談 | 王小喬:大數據與數據新聞

二、數據採集數據挖掘ABC

  • 挑選數據源的TOP3原則

確定好選題之後,我們就進入數據採集和挖掘階段了,這階段非常重要,做不好要返工,會耗費大量的人力物力精力。我們在實踐中總結了一些ABC。

首先第一條,你採集的數據使用的數據源一定要是這個行業或者這個領域TOP3的數據源。這張圖列出了我們曾經在文章當中使用過的數據源。

數據新聞大咖談 | 王小喬:大數據與數據新聞

很多新聞界的同行都問過我一個問題:你怎麼能確定這個數據它是真的還是假的?採訪有一個基本原則,當你得到一個信息之後,需要三方認證,在做跟數據相關的工作的時候,毫無疑問是無法三方認證的,因為大多數的數據它就是留存在這一個公司。

那麼難道因此而說數據有沒有辦法做新聞嗎?我不這麼認為。

其實換一個思維方式去看,如果這個數據源可以滿足統計學意義上的科學性,那麼它就可以成為一個非常重要的新聞採訪資料。

  • 數據採集遠沒有你想象中那麼難

第二點,很多做新聞的人,會覺得數據採集非常難,然後自動就放棄了。其實數據採集真的沒有你們想象中那麼難。你不會代碼,或者不願意學代碼,一樣是可以去做數據採集和數據挖掘的。

現在已經有非常多的工具,不需要代碼。比如說八爪魚、火車頭等。有了基本的代碼思維之後,你就可以用這些工具去佈置環境採集數據了。

  • 採集數據時儘可能全量錄入

數據新聞大咖談 | 王小喬:大數據與數據新聞

大數據的思維就是在一開始的時候就獲得儘可能多的數據維度,而這些維度的交叉最終一定會爆發出讓你很多意想不到的效果。

三、交叉數據產生更大的價值

我們在2016年10月份開啟了一個專題研究報道,叫《地鐵一公里》。我們發現它確實有巨大的公共價值、商業價值,同時還有可能進一步的促進數據源開放。

數據新聞大咖談 | 王小喬:大數據與數據新聞

我們最初的想法是城市越來越大,當我們想更清晰地觀察城市不同細分區域的發展的時候,地鐵可能是一個非常好的觀察數據的節點。

地鐵是一個大城市上班族使用最多的交通工具,也是一個城市商業最先聚集的地方。我們通過對區域內不同維度的數據組合分析,通過交叉之後的指標,把這個區域的綜合實力進行量化,然後來分級。

我們一一去聯繫這些數據方,希望他們帶著他們的大數據一塊加入到這個項目當中,當時得到一個很有趣的反饋,幾家公司也互相想了解對方的數據,大家可以坐在一起來構建這個指標體系,這也讓我們看到促進數據源開放的可能性。

數據新聞大咖談 | 王小喬:大數據與數據新聞

這裡有一些有趣的數據結論。上海在1999年和2016年分別有兩次大的總體規劃,1999年的時候確定了四個城市副中心,其中有兩個在我們的評級體系裡面,它的地鐵站點已經到了六級,說明這兩個站點已經是發展得非常好了。而另外兩個叫真如和花木的地鐵站在我們的評級裡只到了二級和三級,事實上很多在上海工作的人也不知道這兩個地方,說明當時希望發展起來的四個城市副中心有兩個其實是沒有發展起來的。這是回望過去的效果。

我們再來看有沒有可能做一些預測,比如2016年的上海城市總體規劃也列了幾個重點發展區域,有虹橋和莘莊,虹橋和莘莊這兩個站在我們的指標體系裡已經是五級和六級的戰點了。那麼毫無疑問這兩個站點附近一定是下一步上海最有可能先重點發展起來的區域,商業也好,或者是居民買房也好,就可以事先在這個地方來佈局了。

數據新聞大咖談 | 王小喬:大數據與數據新聞

我們也從中發現了商業的價值。比如說,上海的餐飲娛樂,最好的20個站點是左邊這張圖,我們看第20名——龍柏新村。龍柏新村雖然排在第20名,但是它其中有一個指標——KTV指標得分非常高。我們去了解了一下,龍柏新村是一個韓國人的居住聚集地,是不是韓國人特別愛K歌呢?好像是的。那麼這個地方是不是適合發展一些韓國人需要的娛樂項目或是商業項目?當然我覺得是OK的,但是這個一定需要跟其他的指標相結合來看,這就是指標體系的功能。

四、可視化及成文的幾個基本原則

數據新聞大咖談 | 王小喬:大數據與數據新聞

  • 可視化的目的是直觀有料而非炫酷

可視化有一個很重要的基本原則:所有的可視化,最重要的目的是清晰直觀,而不是為了炫酷。不要為了圖形的炫酷而去傷害圖形的信息。

數據新聞大咖談 | 王小喬:大數據與數據新聞

  • 背景、採訪、數據都是文章的有機構成

數據新聞雖然加入了數據、可視化,但和傳統新聞相比,它並沒有原則上的大區別。

也就是說你在做新聞的過程當中,去查背景資料、做採訪、收集數據、可視化,都應該是一篇新聞報道的有機組成部分。數據是海量的,就像你的採訪資料、文字也是大量的,但文章的主旨必須是明確呈現給讀者的,只能是精華。讓數據和主題有效結合,需要非常大的定力。

往期課程:




(整理:趙康帥)


數據新聞大咖談 | 王小喬:大數據與數據新聞


分享到:


相關文章: