為什麼要用QKFile存儲大量數據?QKFile最吸引人的特點是什麼?

為什麼要用QKFile存儲大量數據?QKFile最吸引人的特點是什麼?哪些地方是大家擔心的?本篇文章就為大家一一做講解

針對於這些有大量數據處理需求的用戶來說,QKFile吸引他們的關鍵因素以及他們的憂慮是什麼?

為什麼要用QKFile存儲大量數據?QKFile最吸引人的特點是什麼?

一、在大量(多達10TB)二進制文件通過非常耗時的模擬產生。因此恰當地保存這些文件非常重要(一旦丟失文件,意味著得重新模擬,耗時長達幾個月)。把文件分享給同事也很重要,不幸的是,在實際操作中這很難實現。比如說,我在歐洲工作,就無法下載存儲在斯坦福數據庫幾TB的模擬數據集,要花很長的時間才能辦到。

二、就目前瞭解到的QKFile相關信息來說,重點是能通過QKFile分佈式網絡快速尋找到離你最近的節點(人),從而提高文件分享速度,不再是基於一箇中央儲存庫。但同時也瞭解到這樣就不能再複製了,網絡中的每個節點只存儲它“感興趣”的內容。

三、大多數公司把大型工作負載存儲在 EMC Isilon 或 Netapp,我的工作是存儲銷售這塊,幾乎所有的顧客都想把大量的工作檔案存儲在 AMS (亞馬遜旗下雲計算服務平臺)或 Azure(微軟雲計算服務平臺) – 這總是比較容易實現。因此,檔案存儲用例會是一個有趣的切入點,尤其是在數據生成量達到PB級的行業,比如媒體或研究領域。

四、我在一家網絡用戶行為研究公司工作,類似於谷歌分析(Google Analysis)。跟蹤代碼每天產生幾TB的數據,我們把數據存儲在 AWS S3,設置有效期限,把總量控制在幾百TB內。我們正在尋求減少數據重複的方法,以節約成本。每天有數百萬個時域(session),一旦配置QKFile後,意味著整個網絡上會有數百萬個QKFile節點(短期的,幾秒到幾十分鐘)。我相信這能釋放QKFile的最大潛力。

為什麼要用QKFile存儲大量數據?QKFile最吸引人的特點是什麼?

五、當用戶訪問一個站點時,我們監看和記錄網頁產生的所有DOM更改,保存 session,便於之後用於分析。目前我們需要這些東西:

1. 版本控制(version control)。現在我們用的是一種差異算法來計算DOM更改,把原始數據和差異都存入文檔。通過QKFile的樹對象技術,我們能夠減少很多重複內容,節約大量空間。

2. 可靠的push (或上傳) 方法。我用 PubSub(發佈/訂閱模式)演示過,似乎還無法保證內容接收。因為標籤可能隨時關閉,我們需要在微秒之內將數據push到後臺。

3.真正的千萬量級網絡節點,讓網絡更開放、更安全、速度更快

六、我的理解是,它允許我們在一個地點隨機且可根據需求更改的廣義系統中,可以把一切事物都看做節點、服務和工作者 — 比如,它可以讓你模糊服務端和客戶端之間的區別。取代了強制將服務端和客戶端進行二分的方式,讓你可以在一臺接近數據的設備或一臺距離很遠的設備上進行分析,或者將數據複製到一個新的地點進行分析。某種程度上這樣簡化了你的代碼基,因為你可以少編寫一些能讓客戶端應用、工作者重複利用的庫和服務,無論他們身在何處。


分享到:


相關文章: