重磅!微軟內部研究數據集正式對外開放,覆蓋NLP、CV等9個領域

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

作者|Vani Mandava

編譯|核子可樂、Debra

今天,我們很高興向大家介紹微軟研究開放數據項目——這套新的雲數據存儲庫致力於促進全球研究界的廣泛合作。微軟研究開放數據將提供一套便捷的數據集雲託管平臺,其同時代表著微軟公司多年以來在一系列項目當中所使用的數據管理與研究成果。

為何要開放?

我們的目標是為微軟研究人員及各合作方提供一套簡單的平臺,用以共享數據集以及相關研究技術與工具。微軟研究開放數據項目旨在簡化對這些數據集的訪問流程,促進各使用雲資源的研究人員之間的協作,同時儘可能實現研究的可重複性。我們將繼續塑造並發展這套存儲庫,並根據社區的反饋意見不斷添加新的功能。

我們意識到,研究人員目前正在使用數十套數據存儲庫,並迫切希望其容量能夠與現有工作的需求相契合。

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

圖1 微軟研究開放數據項目中的數據集

這將成為大數據社區的遊戲規則改變者。微軟研究開放數據這樣的項目能夠減少數據共享的障礙,並通過雲計算的力量鼓勵可重複性。

-Sam Madden,麻省理工學院教授

隨著數據總量以指數速度增長,人們普遍認為到 2025 年全球數據規模將超過 150 ZB。很明顯,面對如此龐大的數據體量,我們應優先將處理資源引入數據,而非通過互聯網帶寬遷移海量數據。我們相信,提供這樣一套將處理與數據加以結合的方案能夠帶來巨大的現實意義。

特點:分類多、覆蓋範圍廣

微軟研究開放數據中的數據集按照其主要研究領域進行分類,具體如圖2所示。你可以在數據集當中找到研究項目或者出版物的鏈接。你可以瀏覽可用數據集並進行下載,也可以通過自動化工作流程利用 Auzre 訂閱實現直接複製。該存儲庫儘可能符合數據共享領域的最高執行標準,旨在確保數據集的可發現性、可訪問性、可互操作性以及可複用性 ; 且整套素材庫不包含任何個人身份信息。我們將從用戶當中獲取反饋,從而推動該站點的進一步發展。

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

圖2 數據集分類

精選數據集先睹為快

微軟開放的數據集中包含很多有用的數據集,以下介紹若干精選數據集:

微軟機器閱讀理解(MS MARCO)

微軟機器閱讀理解(MS MARCO)是一個全新的閱讀理解和問題解答大型數據集。 在 MS MARCO 中,所有問題都是從真正的匿名用戶查詢中抽樣的。 從上下文語境中得到的回答是使用最高級版本的 Bing 搜索引擎從真實的 Web 文檔中提取的。如果用戶能夠總結答案,則查詢的答案由他們人工生成。

文件大小:469.03 MB

文件類型:json

許可證:微軟研究數據許可協議

詳細信息:

https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903

SigmaDolphin

用於建立一個自動解決用自然語言編寫的數學單詞問題的計算機系統。SigmaDolphin 是 2013 年初在微軟亞洲研究院啟動的一個項目,其主要目標是建立一個具有自然語言理解和推理能力的計算機智能系統。我們專注於研發自主解決問題的應用,即自動解決用自然語言編寫的問題(特別是數學問題)。

文件大小:11.54 MB

文件類型:json,pdf,pkl,py,txt

許可證:微軟研究數據許可協議

詳細信息:

https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992

微軟研究社交媒體對話語料庫

此數據集是從 Twitter 日誌中提取的代表 4232 個三步會話片段的 12,696 個 Tweet ID 集合。數據集中的每一行表示一個單獨的上下文-消息-響應三元關係,眾包註釋者為上下文響應質量的評分平均為 4 或更高。數據已被隨機分為調優(開發)和測試集,分別包含 2118 和 2114 個三元關係。但這個在自然語言處理社區的數據集僅供學術研究之用。為了訪問底層推文和相關元數據,你需要調用 Twitter API。

如果你在研究中使用類似材料,可以引用以下文章:Alessandro Sordoni,Michel Galley,Michael Auli,Chris Brockett,Jiufeng Feng,Meg Mitchell,Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan,A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。

與此和相關項目的更多信息可以在 http: //research.microsoft.com/en-us/projects/convo/ 上找到。

文件大小:245.46 KB

文件類型:txt

許可證:微軟研究數據

許可協議:微軟研究數據許可協議

NewsQA

每秒鐘都會產生大量的書面文字,我們如何確保我們有最新的相關信息供使用呢? 微軟研究蒙特利爾正在通過構建能夠實時讀取和理解大量複雜文本的 AI 系統來解決這個問題。NewsQA 數據集旨在幫助研究團體構建能夠回答需要人類理解和推理技能的問題的算法。

文件大小:18.23 MB

文件類型:csv,md,pdf

詳細信息:

https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321

在 Bing 查詢中訓練雙字嵌入

這些數據僅可用於研究目的。DESM Word Embeddings 數據集包含一些可能被認為具有冒犯性、不雅或其他令人反感的詞語。 Microsoft 尚未審查或修改數據集的內容。 Microsoft 此數據集僅為了便利的目的,對通過該數據集產生的任何不適內容概不負責。使用數據集需要你自擔風險,保持判斷力。有問題請聯繫論文作者。

文件大小:10.38 GB

https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e

其他的精選數據集還包括 Frames、Filling the Blanks for Mad Libs 等,這裡就不一一詳細介紹了。

如何獲取微軟開放數據集

微軟此次開放的數據項目其中很多都是微軟內部很先進技術會用到的數據集,數據分類多、覆蓋範圍廣、資源珍貴,且用且珍惜,傳送門先奉上:

https://msropendata.com/

除了提供數據資產下載選項之外,用戶還可以將數據集直接複製至基於 Azure 的 Data Science 虛擬機當中,具體如圖 3 所示。

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

圖3 將數據由 microsoftopendata.com 複製至基於 Azure 的 Linux 虛擬機

Data Science 虛擬機預先安裝有各類廣受研究人員與從業者喜愛的開發工具,如圖 4 所示。

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

圖4 Linux Data Science 虛擬機

“我經常收到進行研究數據共享的請求,而我過去已經進行的單獨分享也獲得了不錯的效果。利用 Azure,我們可以在統一平臺上對數據集進行協調與編目,從而幫助內部與外部研究人員更輕鬆地實現訪問、鼓勵彼此協作。這同時也將為微軟研究院提供便捷的雲共享數據訪問能力。”

-John Krumm,微軟研究院 AI 首席研究員

微軟研究開放數據項目是微軟研究院外聯數據科學計劃的成果之一。在這裡,我們要感謝微軟公司內各團隊、微軟研究人員、行業合作伙伴以及學術顧問之間的能力配合。沒有他們的貢獻,這一項目將不可能順利完成。

原文鏈接:

https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/


分享到:


相關文章: