簡介
我最近參加了一個開放數據科學家職位的面試。正如你所能想象的,有來自各種背景的候選人——軟件工程、學習和開發、金融、市場營銷等等。
讓我印象深刻的是,這些人已經完成了一系列令人驚歎的項目。他們本身在數據科學方面並沒有太多的行業經驗,但是他們對學習新概念的熱情和好奇心驅使他們去了以前從未涉足過的領域。
一個共同的特點,開源數據科學項目。在過去的幾年裡,我一直認可開源數據項目的價值。相信我,招聘人員和招聘經理都很欣賞你在接手一個以前沒見過的項目時所付出的努力。
該項目可以來自你當前工作的領域,也可以來自你想要學習的領域。
在這裡,我在本文中展示了六個這樣的開源數據科學項目。。你將發現從計算機視覺到自然語言處理(NLP)等各種項目。
開源計算機視覺項目
對計算機視覺專家的需求每年都在穩步增長。它已經確立了自己作為行業領先領域的地位(這對於任何緊跟最新行業趨勢的人來說都是不足為奇的)。作為一名數據科學專業人士,有很多事情要做,有很多東西要學。
這裡有三個有用的開源計算機視覺項目,你會喜歡的。
NVIDIA的Few-Shot vid2vid
https://github.com/NVlabs/few-shot-vid2vid
去年我偶然發現了視頻到視頻(vid2vid)合成的概念,並被它的有效性所震撼。vid2vid本質上是將一個語義輸入視頻轉換為一個超真實的輸出視頻。從那時起,這個想法已經有了很大的進展。
但是目前這些vid2vid模型有兩個主要的限制:
- 他們需要大量的訓練數據
- 這些模型很難推廣到訓練數據之外
英偉達viv2vid框架做了有效的進步。我們可以用它來“生成人體運動姿勢,從邊緣圖合成人物,或者把語義標籤地圖變成實景照片視頻。
這個GitHub庫是一個PyTorch實現,它很少使用vid2vid。你可以在這裡查看完整的研究論文(它也在NeurIPS 2019上發表):https://arxiv.org/abs/1910.12713
這是一段由開發者分享的視頻,展示了幾次拍攝的視頻:https://youtu.be/8AZBuyEuDqc
輕量的面部檢測器
https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB
這是一個超輕版本的人臉檢測模型,一個非常有用的計算機視覺應用。
該面部檢測模型的大小僅為1MB!我讀了幾次後才相信。
該模型是基於libfacedetection架構的邊緣計算設備的輕量級面部檢測模型。該模型有兩個版本:
- Version-slim (slightly faster simplification)
- Version-RFB (with the modified RFB module, higher precision)
Gaussian YOLOv3:一種精確、快速的自動駕駛目標探測器
https://github.com/jwchoi384/Gaussian_YOLOv3
我是自動駕駛汽車的超級粉絲。但是由於各種原因(建築、公共政策、社區的接受度等),進展緩慢。因此,看到任何框架或算法為這些自動駕駛汽車帶來更美好的未來,總是令人振奮的。
目標檢測算法是這些自動駕駛車輛的核心——我相信你已經知道了。而高精度、快速的推理速度是保證安全的關鍵。這些都已經存在了好幾年了,那麼這個項目有什麼不同之處呢?
Gaussian YOLOv3架構提高了系統的檢測精度,支持實時操作(一個關鍵方面)。與傳統的YOLOv3相比,Gaussian YOLOv3分別將KITTI和Berkeley deep drive (BDD)數據集的平均精度(mAP)提高了3.09和3.5。
其他開源數據科學項目
這篇文章不僅僅侷限於計算機視覺!正如我在引言中提到的,我的目標是覆蓋數據科學的所有方面。因此,這裡有三個項目,從自然語言處理(NLP)到數據可視化!
Google的T5:Text-to-Text Transfer Transformer
https://github.com/google-research/text-to-text-transfer-transformer
谷歌怎麼可能每次都被排除在“最新突破”名單之外呢?他們在機器學習、深度學習和強化學習研究上投入了大量資金,他們的研究結果反映了這一點。我很高興他們不時地開放他們的項目,我們有很多東西可以向他們學習
T5是Text-to-Text Transfer Transformer的簡稱,它是由遷移學習的概念驅動的。在這個最新的NLP項目中,T5背後的開發人員引入了一個統一的框架,將每個語言問題轉換為文本到文本的格式。
該框架在總結、問題回答、文本分類等任務的各種基準測試上取得了最新的結果。在這個GitHub存儲庫中,他們已經開源了數據集、預先訓練的模型和T5背後的代碼。
正如谷歌的人所說,“T5可以作為未來模型開發的庫,它提供了有用的模塊來向量和微調(參數量巨大)文本到文本混合任務的模型。”
歷史上最大的中國知識圖譜
https://github.com/ownthink/KnowledgeGraphData
最近我讀了很多關於圖的文章。它們是如何工作的,一個圖的不同組成部分是什麼,知識如何在圖中流動,這個概念如何應用到數據科學中,等等。我相信你們現在正在問這些問題。
圖論的某些分支可以應用於數據科學,如知識樹和知識圖。
從這個意義上說,這個項目是一個龐然大物。它是歷史上最大的中文知識地圖,超過1.4億個節點!數據集以(實體,屬性,值),(實體,關係,實體)的形式組織。數據為.csv格式。這是一個出色的開源項目,可以展示你的圖方面的技能。
RoughViz – JavaScript中的出色數據可視化庫
https://github.com/jwilber/roughViz
我是數據可視化的忠實擁護者 -這不是秘密。因此,我總是抓住機會在這些文章中加入一個數據可視化庫或項目。
RoughViz就是這樣一個JavaScript庫,用於生成手繪草圖或可視化。它基於D3v5、roughjs和handy。
你可以使用以下命令在你的計算機上安裝roughViz:
npm install rough-viz
這個GitHub存儲庫包含關於如何使用roughViz的詳細示例和代碼。以下是你可以生成的不同圖表:
- 條形圖
- 水平欄
- 圓環圖
- 折線圖
- 餅狀圖
- 散點圖
結尾
我很喜歡整理這篇文章。在這個過程中,我遇到了一些非常有趣的數據科學項目、庫和框架。這實際上是一種很好的方式來跟上這個領域的最新發展。
閱讀更多 人工智能遇見磐創 的文章