12.25 Paper 研習社每日精選論文推薦 12.25

Hi 歡迎來到Paper 研習社每日精選欄目,Paper 研習社(paper.yanxishe.com)每天都為你精選關於人工智能的前沿學術論文供你參考,以下是今日的精選內容——

目錄

  • Deep Interest Evolution Network for Click-­‐Through Rate Prediction

  • Scene Text Recognition from Two-­‐Dimensional Perspective

  • ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games

  • edBB: Biometrics and Behavior for Assessing Remote Education

  • 3D Volumetric Modeling with Introspective Neural Networks

  • Trainable Undersampling for Class-­‐Imbalance Learning

  • Deep Audio Prior

  • CNN-generated images are surprisingly easy to spot... for now

  • UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing

  • Learning Singing From Speech

深度興趣演化網絡用於點擊率預測

Deep Interest Evolution Network for Click-­‐Through Rate Prediction

作者:Guorui Zhou / Na Mou / Ying Fan / Qi Pi / Weijie Bian / Chang Zhou / Xiaoqiang Zhu / Kun Gai

發表時間:2018/12/12

論文鏈接:https://paper.yanxishe.com/review/7813?from=leiphonecolumn1225

推薦理由:一.解決問題:旨在估計用戶點擊概率的點擊率(CTR)預測已成為廣告系統的核心任務之一。對於CTR預測模型,有必要捕獲用戶行為數據背後的潛在用戶興趣。此外,考慮到外部環境和內部認知的變化,用戶興趣會隨著時間動態變化。有多種用於興趣建模的CTR預測方法,其中大多數將行為的表示直接視為興趣,而缺乏針對具體行為背後的潛在興趣的專門建模。而且,很少有工作考慮利益的變化趨勢。

二. 創新點在本文中,我們提出了一種新穎的模型,稱為深度興趣演化網絡(DIEN),用於CTR預測。具體來說,我們設計興趣提取器層以從歷史行為序列中捕獲時間興趣。在這一層,我們引入了輔助損失,以監督每一步的利息提取。由於用戶興趣的多樣性,尤其是在電子商務系統中,我們提出了興趣演變層來捕獲相對於目標商品的興趣演變過程。在興趣演化層,注意力機制被新穎地嵌入到順序結構中,並且在興趣演化過程中增強了相對興趣的影響。在針對公共和工業數據集的實驗中,DIEN的性能明顯優於最新的解決方案。值得注意的是,DIEN已部署到淘寶的展示廣告系統中,其點擊率提高了20.7%。

Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25

二維視角的場景文本識別

Scene Text Recognition from Two-­‐Dimensional Perspective

作者:Minghui Liao / Jian Zhang

發表時間:2018/12/20

論文鏈接:https://paper.yanxishe.com/review/7814?from=leiphonecolumn1225

推薦理由:受語音識別的啟發,最近的最新算法大多將場景文本識別視為序列預測問題。儘管獲得了優異的性能,但是這些方法通常忽略了一個重要事實,即圖像中的文本實際上分佈在二維空間中。它與語音本質上是完全不同的,語音本質上是一維信號。原則上,直接將文本特徵壓縮為一維形式可能會丟失有用的信息並引入額外的噪音。在本文中,我們從二維角度處理場景文本識別。設計了一個簡單但有效的模型,稱為字符注意完全卷積網絡(CA-FCN),用於識別任意形狀的文本。場景文本識別是通過語義分割網絡實現的,其中採用了字符的關注機制。結合詞形成模塊,CA-FCN可以同時識別腳本並預測每個字符的位置。實驗表明,該算法在常規和非常規文本數據集上均優於先前的方法。此外,事實證明,在文本檢測階段中精確定位的不精確性更為強大,這在實踐中非常普遍。

Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25

ColosseumRL:N個玩家遊戲中多智能體強化學習的框架

ColosseumRL: A Framework for Multiagent Reinforcement Learning in N-Player Games

作者:Shmakov Alexander /Lanier John /McAleer Stephen /Achar Rohan /Lopes Cristina /Baldi Pierre

發表時間:2019/12/10

論文鏈接:https://paper.yanxishe.com/review/7827?from=leiphonecolumn1225

推薦理由:在多智能體強化學習中,最近的許多成功都發生在兩人零和遊戲中。在這些遊戲中,虛擬自我玩法和最小極大樹搜索等算法可以收斂到近似Nash平衡。雖然在兩人零和遊戲中玩納什均衡策略是最佳的,但在n人一般和遊戲中,它變成了信息量少得多的解決方案概念。儘管缺少令人滿意的解決方案概念,但在現實世界中,n玩家遊戲構成了絕大多數的多代理情況。在本文中,我們提出了一個用於研究n玩家遊戲中強化學習的新框架。我們希望通過分析代理在這些環境中學到的行為,社區可以更好地理解這一重要的研究領域,並朝著有意義的解決方案概念和研究方向發展。有關此框架的實現和其他信息,請參見https://colosseumrl.igb.uci.edu/。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

edBB:評估遠程教育的生物識別和行為

edBB: Biometrics and Behavior for Assessing Remote Education

作者:Hernandez-Ortega Javier /Daza Roberto /Morales Aythami /Fierrez Julian /Ortega-Garcia Javier

發表時間:2019/12/10

論文鏈接:https://paper.yanxishe.com/review/7828?from=leiphonecolumn1225

推薦理由:我們提供了一個用於遠程教育中學生監控的平臺,該平臺由捕獲生物特徵和行為數據的傳感器和軟件組成。我們定義了一組任務來獲取行為數據,這些數據對於應對遠程評估過程中自動學生監控中的現有挑戰很有用。此外,我們發佈了一個初始數據庫,其中包含來自20個不同用戶的數據,這些用戶使用一組基本傳感器來完成這些任務:攝像頭,麥克風,鼠標和鍵盤;以及更先進的傳感器:NIR相機,智能手錶,其他RGB相機和EEG頻段。來自計算機的信息(例如系統日誌,MAC,IP或Web瀏覽歷史記錄)也將被存儲。在每個獲取會話期間,每個用戶完成三種不同類型的任務,生成不同性質的數據:鼠標和擊鍵動態,面部數據和音頻數據等。設計任務時要牢記兩個主要目標:i)分析此類生物統計和行為數據的能力以在遠程評估期間檢測異常,並且ii)研究這些數據的能力,例如腦電圖,心電圖或近紅外視頻估計有關用戶的其他信息,例如他們的注意力水平,壓力的存在或他們的脈搏率。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

從零­學習到冷啟動推薦

3D Volumetric Modeling with Introspective Neural Networks

作者:Jingjing Li / Mengmeng Jing / Ke Lu / Lei Zhu / Yang Yang / Zi Huang

發表時間:2018/12/20

論文鏈接:https://paper.yanxishe.com/review/7829?from=leiphonecolumn1225

推薦理由:零樣本學習(ZSL)和冷啟動推薦(CSR)分別是計算機視覺和推薦系統中的兩個難題。通常,在不同社區中對它們進行獨立調查。但是,本文揭示了ZSL和CSR是相同意圖的兩個擴展。例如,它們都試圖預測看不見的類,並涉及兩個空間,一個空間用於直接特徵表示,另一個空間用於補充描述。但是,沒有從ZSL角度解決CSR的現有方法。

這項工作首次將CSR公式化為ZSL問題,並提出了量身定製的ZSL方法來處理CSR。具體來說,我們提出了一種低階線性自動編碼器(LLAE),它在本文中挑戰了三個關鍵點,即域移位,偽相關和計算效率。LLAE由兩部分組成,低級編碼器將用戶行為映射為用戶屬性,對稱解碼器根據用戶屬性重建用戶行為。在ZSL和CSR任務上進行的大量實驗證明了該方法是雙贏的,即,不僅ZSL模型可以處理CSR,而且與幾種傳統的最新方法相比,其性能也得到了顯著改善。CSR的考慮也可以使ZSL受益。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

可訓練的欠採樣,用於類別不平衡學習

Trainable Undersampling for Class-­‐Imbalance Learning

作者:Minlong Peng1 / Qi Zhang1 / Xiaoyu Xing1 / Tao Gui1 / Xuanjing Huang1 Yu-Gang Jiang1

發表時間:2018/12/20

論文鏈接:https://paper.yanxishe.com/review/7830?from=leiphonecolumn1225

推薦理由:

一 解決問題

欠採樣已廣泛應用於班級不平衡學習領域。大多數現有欠採樣方法的主要缺陷是它們的數據採樣策略是基於啟發式的,並且與所使用的分類和評估指標無關。因此,他們可能會在數據採樣過程中為分類器丟棄翔實的實例

二 創新點

在這項工作中,我們提出了一種基於欠採樣的元學習方法來解決此問題。該方法的關鍵思想是對數據採樣器進行參數設置,並對其進行訓練,以優化評估指標上的分類性能。我們通過強化學習解決了用於訓練數據採樣器的不可微優化問題。通過將評估指標優化合併到數據採樣過程中,所提出的方法可以瞭解對於給定的分類和評估指標應丟棄哪個實例。另外,作為數據級別的操作,此方法可以輕鬆地應用於任意評估指標和分類,包括非參數評估指標和分類(例如C4.5和KNN)。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

深度音頻優先

Deep Audio Prior

作者:Tian Yapeng /Xu Chenliang /Li Dingzeyu

發表時間:2019/12/21

論文鏈接:https://paper.yanxishe.com/review/7831?from=leiphonecolumn1225

推薦理由:眾所周知,深度卷積神經網絡擅長從大量數據中提取緊湊而強大的數據。我們有興趣在沒有訓練數據集的情況下應用深度網絡。

在本文中,作者介紹了深音頻先驗(DAP),它利用了網絡的結構和單個音頻文件中的時間信息。具體而言,作者證明了在解決具有挑戰性的音頻問題(例如通用盲源分離,交互式音頻編輯,音頻紋理合成和音頻共分離)之前,可以將隨機初始化的神經網絡與經過精心設計的音頻一起使用。為了瞭解先驗音頻的魯棒性,作者構建了一個基準數據集\\ emph {Universal-150},用於使用各種聲源進行通用聲源分離。在定性和定量評估方面,其顯示出比以前的作品更好的音頻結果。作者還將進行徹底的消融研究,以驗證我們的設計選擇。

Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

CNN生成的圖像現在非常容易發現...

CNN-generated images are surprisingly easy to spot... for now

作者:Wang Sheng-Yu /Wang Oliver /Zhang Richard /Owens Andrew /Efros Alexei A.

發表時間:2019/12/23

論文鏈接:https://paper.yanxishe.com/review/7834?from=leiphonecolumn1225

推薦理由:在這項工作中,作者詢問是否有可能創建一個“通用”檢測器,以區分CNN生成的真實圖像,而與所使用的體系結構或數據集無關。

為了測試這一點,作者收集了一個由11種不同的基於CNN的圖像生成器模型生成的偽圖像組成的數據集,這些模型被選擇來跨越當今常用架構的空間(ProGAN,StyleGAN,BigGAN,CycleGAN,StarGAN,GauGAN,DeepFakes,級聯精煉)網絡,隱式最大似然估計,二階注意力超分辨率,黑暗中看到)。

作者證明,經過精心的預處理和後處理以及數據增強,僅在一個特定的CNN生成器(ProGAN)上進行訓練的標準圖像分類器就可以令人驚奇地將其很好地推廣到看不見的架構,數據集和訓練方法(包括剛剛發佈的StyleGAN2)。我們的發現表明,當今的CNN生成的圖像存在一些常見的系統缺陷,從而阻止了它們實現逼真的圖像合成,這是一種令人著迷的可能性。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25

UWGAN:水下GAN,用於真實世界的水下顏色恢復和去霧

UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing

作者:Wang Nan /Zhou Yabin /Han Fenglei /Zhu Haitao /Zheng Yaojing

發表時間:2019/12/21

論文鏈接:https://paper.yanxishe.com/review/7835?from=leiphonecolumn1225

推薦理由:在現實世界的水下環境中,海底資源的勘探,水下考古學和水下捕魚都依賴於各種傳感器,視覺傳感器由於其信息量高,非侵入性和被動性而成為最重要的傳感器。但是,與波長有關的光衰減和反向散射會導致顏色失真和霧度效應,從而降低圖像的可見性。

為了解決這個問題,首先,作者提出了一種無監督的生成對抗網絡(GAN),用於基於改進的水下成像模型從空中圖像和深度圖對生成逼真的水下圖像(顏色失真和霧度效果)。其次,採用合成水下數據集進行有效訓練的U-Net,用於色彩還原和除霧。作者的模型使用端到端自動編碼器網絡直接重建水下清晰圖像,同時保持場景內容結構的相似性。

通過作者的方法獲得的結果定性和定量地與現有方法進行了比較。通過該模型獲得的實驗結果證明了在開放的現實世界水下數據集上的良好性能,並且在一個NVIDIA 1060 GPU上運行時,處理速度可以達到125FPS。源代碼和示例數據集可通過此https URL公開獲得。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25

通過語音學習唱歌

Learning Singing From Speech

作者:Zhang Liqiang /Yu Chengzhu /Lu Heng /Weng Chao /Wu Yusong /Xie Xiang /Li Zijin /Yu Dong

發表時間:2019/12/20

論文鏈接:https://paper.yanxishe.com/review/7836?from=leiphonecolumn1225

推薦理由:作者提出了一種算法,該算法能夠在僅給出正常語音樣本的情況下合成高質量目標說話者的歌聲。提出的算法首先將語音和歌唱合成整合到一個統一的框架中,並學習語音和歌唱合成任務之間可共享的通用說話人嵌入。具體而言,在統一的訓練框架中,將通過語音合成目標從正常語音中學到的說話者嵌入與通過語音合成目標從演唱樣本中學習的說話者共享。這使得有經驗的演講者可以嵌入可口述的演講和演唱形式。

作者評估了所提出算法在歌唱語音轉換任務上的效果,該算法的原始歌唱內容被純粹從正常說話樣本中獲悉的另一位演講者的聲音音色所覆蓋。作者的實驗表明,所提出的算法會產生高質量的歌聲,聽起來僅與目標說話者的語音(僅給出正常語音樣本)高度相似。作者相信,提出的算法將為更廣泛的用戶和應用打開唱歌合成和轉換的新機會。

Paper 研习社每日精选论文推荐 12.25Paper 研习社每日精选论文推荐 12.25
Paper 研习社每日精选论文推荐 12.25

雷鋒網雷鋒網雷鋒網


分享到:


相關文章: