旅遊大數據解析:為什麼駐馬店的旅遊接待人數比杭州多?

說條舊聞,2019年2月,中國旅遊研究院發佈了《特別報告丨文旅融合年味更濃,主客共享美好生活》,報告公佈了2019年春節遊客接待前60位城市。


旅遊大數據解析:為什麼駐馬店的旅遊接待人數比杭州多?


仔細看看這個排名表,會發現許多有意思的地方,比如衡陽、邵陽接待人數要比成都、廣州多;周口、鹽城接待人數要比深圳多;保定、南陽要比桂林多;菏澤、駐馬店、商丘要比杭州多;邯鄲要比南京多;滄州要比昆明多。也就是衡陽、邵陽、周口、鹽城、保定、南陽、菏澤、駐馬店、商丘、邯鄲等這些城市2019年春節假期接待人數都比南京多,還有這些城市2019年春節假期接待人數也都比昆明多。

這個城市接待數據排名是怎麼來的?報告說:“中國旅遊研究院與中國電信聯合實驗室根據信令大數據測算”,是如雷貫耳的“大數據”。

套用一下百度的定義:大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

現在幾乎每一個人都有手機,每一部手機的“信令”就像黑夜裡一盞燈光。想象一下,如果我們可以在太空中俯瞰地球上攜帶手機的人群,就可以看到這樣的場景:


旅遊大數據解析:為什麼駐馬店的旅遊接待人數比杭州多?


我們可以看到每一盞燈光——攜帶手機的用戶,像螞蟻一樣在地區之間穿梭流動,停下滯留。把他們流動方向、停留地點和停留時間按照算法模型進行計算,就可以測算出一個地區一座城市一段時間的旅遊接待人數。這就是典型的大數據分析方法,用海量的多樣化(流向、停留時間等)的手機信令數據測算另一類數據——旅遊接待人數。看起來好像很簡單容易,實際上這個過程非常非常複雜。

不過,許多人會產生疑問:為什麼這個測算結果和人們也包括許多業內人士的理解大相徑庭?按理說中國旅遊研究院是國內最權威的旅遊統計機構,報告公佈以後,怎麼沒見菏澤的文化和旅遊機構或者駐馬店人民鑼鼓喧天宣告春節假期接待人數超南京超杭州?是沒看見這個數據?是不明白這個數據如何出來的?還是對這個數據覺得心裡沒底?

對於這種有點“反常”數據結果,報告中含混地說出原因:“進一步分析各城市接待量發現,春節期間大批外出務工者返鄉,推動了三四線城市旅遊景氣快速提升”,這就涉及到目前我國實行的旅遊統計制度關於遊客的定義了。

中國旅遊研究院發佈的《統計知識 || 旅遊統計概念和指標解析》中說:“統計意義上的遊客認定以往接待國內遊客抽樣調查中的調查對象是指:國內遊客是不以謀求職業、獲取報酬為目的,離開慣常居住環境,到國內其他地方從事參觀、遊覽、度假等旅遊活動(包括外出探親、療養、考察、參加會議和從事商務、科技、文化、教育、宗教活動過程中的旅遊活動),出行距離超過10公里,出遊時間超過6小時,但不超過12個月的我國大陸居民。具體包括以下幾個要件:

1、國內遊客必須是在被訪地不形成僱傭關係。根據《2008年國際旅遊統計建議》中的解釋,出行的主要目的是用來確定旅行者是否算作遊客的標準之一。如果旅行者在旅行期間,伴隨著旅行而產生賺取了收入,但其不是以獲取經濟收入為主要目的、沒有形成僱傭關係,且停留時間、出行距離等要件符合要求這也算是遊客,因此,調查員抽樣的調查對象一定是在被訪地沒有形成僱傭關係的,這點需要明確。

2、國內遊客必須是“離開慣常環境,出行距離超過10公里,出遊時間超過6小時,但不超過12個月的我國大陸居民”。在旅遊統計中,慣常環境是與個人有關的特徵,一個家庭中的兩個人的慣常環境可能有所區別。例如,一個年輕人長年在A市B區工作,但是他和他的父母長期居住地是A市C區,那麼他的慣常環境在A市B區和C區,他父母的慣常環境是A市C區,而B區卻並不是他父母的慣常環境。出行距離和出行時間也有相應嚴格要求,世界上每個國家的標準都有所差異。根據國內實際情況,我們國家選用了相對較低標準。

3、國內遊客是“到國內其他地方從事參觀、遊覽、度假等旅遊活動(包括外出探親、療養、考察、參加會議和從事商務、科技、文化、教育、宗教活動過程中的旅遊活動)。旅遊活動的範圍比較寬泛,包括遊客為了旅行或者在旅行之中所做的所有事情,不只限於像觀光、參觀景點這種被認為的典型旅遊活動,還包括為了從事業務、教育和培訓等目的的活動,在調查過程中,這些均需要納入統計。在旅遊統計中,按照旅遊目的把旅遊活動分為:觀光/遊覽、休閒/度假、探親/訪友、商務、會議、宗教/朝拜、文化/體育/科技交流、購物、醫療保健和其他。”

看完這個定義解釋,你可能會想到了:目的地城市區域外出務工者返鄉人群納入了遊客統計範圍,也就是春節期間回家過年的人群納入了遊客統計範圍。因為這個龐大的人群符合遊客統計的三個要件:

1、國內遊客必須是在被訪地不形成僱傭關係(回家過年當然不形成僱傭關係);

2、國內遊客必須是離開慣常環境,出行距離超過10公里,出遊時間超過6小時,但不超過12個月的我國大陸居民。一位老家在山東菏澤,外出到杭州的務工者,他的“慣常環境”是在杭州而不是菏澤;

3、國內遊客是“到國內其他地方從事參觀、遊覽、度假等旅遊活動(包括外出探親、療養、考察、參加會議和從事商務、科技、文化、教育、宗教活動過程中的旅遊活動),而春節回家過年這是“探親”。

這個幾乎和春節流動人口重疊的龐大探親人群納入遊客計算範圍,應該是拉動三線、四線甚至五線城市的旅遊接待人數超過了許多一線城市的重要原因之一。

深一步探究,《旅遊統計調查制度》的官方解釋《統計知識 || 省域國內旅遊接待統計推算實務》中,地市國內旅遊接待數據的測算是這樣的:

國內旅遊接待人數包括過夜遊客人數和一日遊遊客人數,兩類人數的計算方法有所不同。

(1)過夜遊客人數 = 在旅遊住宿單位過夜的國內遊客人數+在親友家過夜的國內遊客人數

(2)在親友家過夜的國內遊客人數 = 旅遊吸引物接待總人數×去旅遊吸引物而在親友家過夜的國內遊客比重÷在親友家過夜的國內遊客平均遊覽旅遊吸引物數量

(3)一日遊遊客人數 = 旅遊吸引物接待外地市來本地市的國內一日遊遊客人數+ 旅遊吸引物接待本地市的國內一日遊遊客人數

(4)旅遊吸引物接待外地市來本地市的國內一日遊遊客人數= 旅遊吸引物接待總人數×旅遊吸引物接待外地市來本地市的國內一日遊遊客比重÷ 外地市來本地市的國內遊客平均遊覽旅遊吸引物數量

(5)旅遊吸引物接待本地市的國內一日遊遊客人數= 旅遊吸引物接待總人數× 旅遊吸引物接待本地市的國內一日遊遊客比重÷本地市的國內遊客平均遊覽旅遊吸引物數量

旅遊吸引物:指旅遊地吸引旅遊者前往的所有因素的總和。狹義的旅遊吸引物指“旅遊景區”,本制度指廣義的旅遊吸引物,即對旅遊者具有基本吸引作用的自然因素、社會因素以及其他任何因素。旅遊吸引物系統包括一個核心圈層和兩個支持層次。旅遊產品和旅遊資源構成旅遊吸引物系統核心圈層的主體,是吸引旅遊者的最根本因素。旅遊目的地各種旅遊支持系統(如住宿設施和各種基礎設施等)以及由旅遊目的地所傳達出的各種信息——標誌物,以及逗留在旅遊目的地的旅遊者本身,作為支持層次構成對旅遊者有吸引力的成分。

這段文字非常枯燥,按照定義理解就是:一位在杭州務工人員春節回到菏澤老家,如果天天趴在家裡不出門當宅男,就不納入統計範圍。不過如果出門到旅遊景區遊覽,或者去趟博物館,或者下館子吃飯,再或者到城市公園溜達一圈,以上這些都可以稱為“旅遊支持系統”,那就可以納入統計範圍。

再深一步考慮,遊客統計中“離開慣常環境,出行距離超過10公里,出遊時間超過6小時,但不超過12個月的我國大陸居民”這個範圍太大了!在推算方法中,過夜遊客還好辦,而“一日遊遊客人數= 旅遊吸引物接待外地市來本地市的國內一日遊遊客人數+ 旅遊吸引物接待本地市的國內一日遊遊客人數”,琢磨一下就會想到,使用傳統的統計方法取得這樣的數據非常困難,比如如何界定“旅遊吸引物”,如何界定10公里和6小時,可操作性就差了些。想想看,菏澤地區本地居民在這個春節假期裡到10公里之外的縣城走親訪友串親戚,然後到飯店裡搓了一頓,是不是也要納入計算範圍,那會不會是個天大的數據。

實際上,國內許多地方的實際操作過程中,旅遊吸引物就界定在“旅遊景區”的狹義範疇。

回到大數據視角吧,想象一下這像點點燈光的手機用戶,他們流動、停留,你如同上帝一樣俯視著他們,是不是感嘆一下大數據的神奇。

且慢!有沒有感到哪裡有點不對勁。

如果我們把中國範圍內這一盞一盞移動的燈光看成一個一個手機用戶,我們需要按照大數據定義中的“新處理模式”把這些信令數據分析計算旅遊接待數據。容易理解的是,通過信令數據可以知道手機用戶離開慣常環境(常住的地方),出行距離超過了10公里(可以計算移動距離),出遊時間超過6小時(可以計算停留時間),最大的問題是:在這個大數據分析推算過程中,是如何界定“旅遊吸引物”的,尤其是如何標註目的地大量的“旅遊吸引物”的。因為只有標註了“旅遊吸引物”的地理範圍,才能知道手機用戶是否“遊覽”或者“進入”了“旅遊吸引物”。竊以為,在這次大數據推算過程中,可能是這個環節存在問題。

大數據會騙人,也不會騙人。如果我們不標註“旅遊吸引物”或者標註“旅遊吸引物”過於寬泛,那就造成春節期間國內那個城市返鄉流動人口多,那個城市旅遊接待人數就多,“旅遊吸引物”的範圍彈性,決定了測算數據的多寡。即使我們把“旅遊吸引物”限定在景區,還需要通過手機用戶的不同行為方式數據,判定是否是遊覽行為。比如區分博物館內遊客以及隔牆的路人;區分山嶽旅遊區的遊客以及穿過旅遊區公路上的過客等等,每一盞移動燈光背後,都要計算和判斷是不是旅遊行為。這些遠遠要比我們想象的複雜和困難,也不是高喊“大數據”口號能解決的。

雖然這次大數據的分析推算沒有公佈過程和算法,還是認為旅遊大數據分析應用於國內旅遊統計才剛剛起步,需要大量的實踐和研究工作,所以報告中的數據可以作為實驗室數據,悶頭再研究,而作為測算數據公佈,似乎還是勉強了點。

旅遊業的蓬勃發展,旅遊人群的快速增長,旅遊行為的散客化、多樣化以及生活化,客觀上大大增加了旅遊統計的難度,為旅遊統計工作提出了更高的要求。與其他所有旅遊發達國家相比,我們要在世上罕見的春節假期探親流動人口集中爆發時期,對其中的10公里和6小時以上的旅遊行為進行測算分析,稍微有點常識也會想到其中的數據海量和測算難度。與此對比的是,僅僅是春節流動人群的一部分流量幾年前就可以讓火車票預訂平臺12306不堪一擊。利用大數據分析手段無疑是解決國內旅遊統計問題的主要途徑,但也應該認識到在這個過程中更多的是解決業務問題而不是技術問題,更多的解決行業認知問題而不是急於求成。駐馬店接待人數比南京多,還是要認真分析原因,比如,僅僅依靠單一運營商中國電信數據、手機用戶歸屬地判定、手機移動數據行為分析,還有旅遊吸引物的界定等等,都會引發測算結果誤差。

旅遊統計是旅遊業的基礎業務,確實還有個別目的地的統計數據失真,鬧出笑話。比如在相同統計口徑下,本地人口稀少的廣域目的地旅遊出現所謂“井噴”式增長,在木桶效應下的旅遊業,還能進的去,走的了,吃上飯,不露宿,不擁堵,那是奇蹟。

另一方面,少數管理者、業者甚至學者忽視旅遊統計的複雜性,面對散客化多樣化常態化的旅遊行為,甚至用托馬斯庫克時代的簡單思路想象現在的旅遊統計。比如上個世紀,在當時的交通條件下,國內旅遊活動基本是和過夜關聯的,一日遊的旅遊行為是罕見的。而現在隨著交通的快捷便利,以往過夜遊變成了一日遊,是不是就可以不納入統計範圍了,進而結論就是旅遊活動越快捷就不能算是旅遊活動?!

一個常見的場景是使用自認為清楚統計過程的數據來評價分析自認為了解的旅遊行業;而另一方面又想當然認為其中摻雜水分,數據虛假,時不時敲打評論一番。一個踏踏實實做法是看看《旅遊統計調查制度》,尤其是找幾個省市旅遊統計業務人員瞭解實際業務操作流程,如此而已。有趣的是,一看到中國旅遊研究院的學者在朋友圈轉發旅遊統計基礎知識文章的時候,八九不離十又有人質疑批評旅遊統計數據了。

最後,再說說大數據。現在旅遊大數據成了業內常用詞,甚至發展到但凡有個數據,如果前面不加個“大”,你都不好意思說出來。出現了許多“旅遊大數據類型”:“穿靴戴帽型”,在“數據”、“數據分析”等前面都擱上“大”字,表示緊跟時代;“望洋興嘆型”,覺得數目字大,數“大”就是大數據,如果旅遊接待人數上千萬以及上億,當然是“大”數;“不覺明歷型”,不明白什麼意思,但是覺得加上“大數據”就很厲害,進而延伸到泛大數據化,沾上技術或者網絡就是大數據。說得很多,漫天飛舞,卻不落地,未來還需要大量業務實踐探索。


分享到:


相關文章: