有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

作為一名頭條號作者,我保持著超高頻率使用頭條的產品,在我無意中想找幾個問題來回答的時候,卻發現了以下有趣的一幕:

有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

我們會發現標註出來的兩個問題,其實是一樣的。雖然嚴格意義上來說,這個問題有點不一樣的。

比如第一個問題是:彙編語言如何發展【成】C語言?

而第二個問題是:彙編語言如何發展【到】C語言【的】?

剛開始我看到的時候,我以為是系統出錯了,可能是同一個問題推送了兩次。為了驗證想法,我點了進去是這樣的:

有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

從提問的標題及詳細描述的詞序及內容來看,很明顯可以看得出來這是同一個提問者先後提出的同一個問題,我的根據是什麼呢?

1、提問的標題及詳細描述的內容及詞序相似度極高

有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

  • 如何以一個做技術的人的視角去看,其實這是很容易判斷為一致的提問的。

首先做內容類型的拆分,圖片和文字是不同類型的內容。這樣可以把帶有圖片的提問扔出比對空間。

接著做詞頻詞序的詞序的統計,這就可以得到兩個相似度數據,根據大量數據測試可以得到相似度的閥值在多少可以認為是同樣的內容。

  • 為什麼要統計詞頻和詞序呢?

舉個簡單的例子,當你拿到兩串非常非常長的數字,你怎麼證明兩串數字是一樣的呢?

我們肯定會說,首先看一下數字的長度嘛,然後再看一下首尾的數字是不是相同嘛,然後再對比一下其它的位數是不是一樣,這不就行了!

你看,這裡面其實就是原理。因為機器並不具備人的功能,並沒有閱讀理解的功能,所以我們才要用這些方法,當然這些還是比較粗略的方法。

再說深一點,一串數字,我們可以每個位都切割,這樣一統計詞頻,如果詞頻一樣,數據才有可能是一樣的(因為順序可能會變動)。但是漢字可不一樣,漢字裡有許多虛詞、轉折詞,即使詞頻不一致,表達的內容也是一樣的。

也正是因為這樣,我們才需要在詞序上對比,如果詞序也是高度相似的,那麼就很有可能是一樣的內容了。(字數多了,排名序號會變,但是相對序號不會變,比如你在前面,我在後面,這個相對次序的確定,只要把一些無意義的虛詞提取出來就好了)

2、兩條提問的答主們回答的時間都在同一天,僅僅相差幾個小時

有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?


有趣,悟空問答的問題難道沒有消重機制?這個算BUG嗎?

這兩個時間數據也許不是很有說服力,但是我們可以有一個假設:假如你要尋找一個問題的答案,正常人都是會先去找吧,比如通過搜索等等渠道。如此一來,後面的提問者就有很大的概率(因為是在同一平臺)看到前面提問的回答,如何回答的內容不是他想要的,他再提出的問題是不是應該換個問法?或者再繼續邀請別的人回答?

這兩個時間可以說明的問題主要在於,兩個提問很在可能是在相差不多的時間內進入推薦流的。如果是相差很大的時間,那麼前一個提問的回答時間應該跟後面提問的回答時間相差很大,因為熱度在慢慢下降,被邀請的人或者想回答的人看到問題的第一時間基本也就回答了。

以上就全部是的猜測,僅僅是小白想試圖證明這兩個提問是同一人提問的兩個幾乎一樣的問題。到底是不是呢? 官方出來給個答案唄。或者請各位頭條瓜友,給出更細緻的證明。

其實以上兩個問題很明顯就是同一個內容,悟空問答作為一款答疑解惑的產品,我認為應該可以把兩個提問的答案合併在一起,或者以擴展鏈接的形式將兩個內容關聯起來,避免有人答了同一個類型的問題,卻因為我跑到新開的提問下看不到答案。


分享到:


相關文章: