如何提高定量訪問的數據質量 – 事後篇

在定量研究中,數據的收集和分析是最重要的環節。作為結論依據的數據,質量的重要性不言而喻。以往,在市場調研還處於線下模式的時候,一線訪問員承擔了大部分的數據質量監督工作。現場會有多次被訪者的甄別,還會有訪問員全程指導被訪者,確保他們對題目的理解無誤,對選項的理解無誤,以及做出儘可能詳盡的回答。

如何提高定量訪問的數據質量 – 事後篇

近年來,隨著互聯網的普及,以及出於成本和效率的考慮,大部分的定量訪問已經轉到線上。線上訪問大大縮短了時間週期,減少了人力成本,但隨之而來的弊端是,數據的質量不再像以前那樣有保障。被訪者自己獨自答題,有可能存在對問題的誤解,也有可能存在虛假回答(比如為了能夠參與調研獲得獎勵,而選擇可以繼續作答的甄別條件,給出虛假答案)。

這種情況下,就需要我們在處理定量數據的時候,多長些心眼,學會辨識“假數據”和“弄虛作假的被訪者”們。

我們一般可以分“事前”和“事後”,去採取一些方法提高訪問數據的質量。之前的一篇文章中,我們聊瞭如何在訪問之前(也就是事前),採用一些方法,提前規避可能出現的數據問題,屬於“防範”;在這篇文章裡,我們重點談數據收集完畢之後(也就是事後),清洗數據的一些方向,屬於“處理”。

一般來說,我們清洗數據可以從以下幾個方面去進行檢查:

【題目出現異常值】

異常值指的是正常作答情況下,絕對不會出現的一些答題結果。比如說,填寫年齡的題目,出現三位數,個位數;開放題的回答,出現牛頭不對馬嘴的情況;答題時間記錄,遠低於平均答題時間等等(在問卷網,我們會在後臺報表記錄每份答卷完成時間,以及統計平均答題時間,以作為數據清洗的參考)。

【機器人式作答】

所謂機器人式作答,是指很多類似的題目出現同樣的答案。這種情況尤其會出現在量表題(打分題),需要做重點關注。比如,所有打分題都是給同一個分數,那麼一般可以認為是隨意作答,需要作為廢卷處理。一般來說,我們以量表題選擇相同數字超過70%作為標準。

【邏輯紊亂】

要發現這類問題,需要事先找好問卷中有相互關聯的題目或者選項,在清洗數據的時候,重點查看這些關聯是否符合邏輯。比如,前面一道題回答自己的身份是學生,但是後面有一道題問婚姻狀況的時候,選擇的是已婚有孩,這種情況基本就屬於是邏輯紊亂。又比如:年齡25歲以上,還說自己在讀高中;個人年收入大於家庭年收入等等。這裡只是舉了一些容易理解的例子,可能犯錯的被訪者不會很多。但實際情況下,當我們問卷達到一定長度,問卷邏輯關聯變多,隨便作答的被訪者就很容易忽略邏輯關聯,出現邏輯紊亂問題。那我們只要事先確定好可以互查邏輯的幾道題,就能通過答案之間的相互關係找到不合格答卷進行廢除。

【多選題選項個數】

如果,某個被訪者所有多選題的選項都只選1個,尤其是那些明顯不是一個答案的選擇題(比如,你知道哪些洗髮水品牌),也只選1個的時候,基本可以判定其為隨意答題者,可以廢除這份答卷。

【IP地址對應】

在消費者調研中,有些時候區域差異是特別重要的分析維度,因此被訪者是否真實選擇了自己常住地所在的城市,就非常重要。如果人在三線城市,卻胡亂選擇了一線城市,那麼出來的結果肯定是不對的。我們在清洗數據的時候,就可以通過檢查IP地址的記錄,對應被訪者所選擇的城市(如需記錄),看是否存在不匹配現象。如果存在,則可以視作無效問卷。

以上就是一些常見的數據清洗方法。但我們要注意,在清洗數據之前,我們一定要保留好源數據。對於有問題的數據,可以記錄好其被訪者ID或者編碼,以確保在我們清洗數據之後,一旦存在誤刪除,還可以找到原來的數據填補回來。

在問卷網,我們可以保留被標為無效的樣本數據,不會進入分析和報表。但是,所有標為無效的樣本數據都將不會在後臺刪除,而是存放在無效數據中。如果存在誤刪,都可以通過樣本編號,找到該份數據並進行復原,使其重新加入到總體的數據分析中。


分享到:


相關文章: