ELMo深層語境化的詞表徵

2019-01-15 00:16:30 深度學習社區

ELMo深層語境化的詞表徵

Deep contextualized word representations

原文：https://arxiv.org/abs/1802.05365

作者：Matthew E. Peters等人

時長：約8000字，約20分鐘

摘要

我們提出了一種新型的深層語境化的詞表徵，該方法不僅對詞語用法的複雜特徵建模（如語法和語義），還對這些詞語用法在不同語境中的變化方式建模（如多義性）。我們的詞向量是一個深層雙向語言模型(biLM)的內部狀態的學習函數，該模型是在大型文本語料庫上預訓練而來。我們證明，這些表徵可以很容易地添加到現有模型中，並且顯著地提升了六個具有挑戰性的NLP問題的最新水平，包括問答、文本蘊涵、情感分析。我們還提出了一個分析，它表明暴露一個預訓練網絡的深層內部結構是至關重要的，允許下游模型混合不同類型的半監督信號。

1 引言

預訓練的詞表徵（Mikolov等人，2013；Pennington等人，2014）是許多神經語言理解模型的關鍵組成部分。但是，學習高質量的表徵具有挑戰性。理想情況下，它們不僅應該對詞語用法的複雜特徵建模（如語法和語義），還應該對這些詞語用法在不同語境中的變化方式建模（如多義性）。在本文中，我們提出了一種新型的深層語境化的詞表徵，該方法可以直接解決這兩個難題，並且可以很容易地集成都現有模型中，並且在一系列具有挑戰性的語言理解問題中顯著地改善了每一種考慮到的情況下的最新水平。

我們的詞表徵不同於傳統的詞嵌入，因為每個符號都被分配了一個表徵，該表徵是整個輸入語句的函數。我們使用一個從雙向LSTM派生而來的向量，該向量是在大型文本語料庫上使用一對語言模型目標訓練而來。因此，我們稱它們為ELMo表徵(Embeddings from Language Models)。不同於之前的語境化的詞向量學習方法（Peters等人，2017；McCann等人，2017），ELMo表徵是深層的，從某種意義上說，它們是biLM所有內部層的函數。更具體地說，我們學習了每個終端任務的輸入單詞上的向量的線性組合，這比僅使用頂層LSTM顯著地提高了性能。

以這種方式組合內部狀態允許非常豐富的詞表徵。使用內部任務評價（intrinsic evaluations），我們表明，較高級別的LSTM狀態捕獲詞義的上下文相關方面（如，它們可以在不修改的情況下使用，以在監督詞義消歧任務上表現良好），而較低級別LSTM狀態為語法的各方面建模（如，它們可以用作詞性標註）。同時暴露所有信號是非常有益的，允許學習模型選擇半監督類型，它對每個終端任務都是最有用的。

大量實驗表明，ELMo表徵在實踐中非常有效。我們首先表明，它們可以很容易地添加到現有模型中，以解決六個不同的且具有挑戰性的語言理解問題，包括文本蘊涵、問答、情感分析。僅添加ELMo表徵就可以顯著地改善每種情況下的最新技術水平，包括高達20%的相對誤差減少。對於可直接比較的任務，ELMo優於CoVe（McCann等人，2017），它使用神經機器翻譯編碼器來計算語境化表徵。最後，ELMo和CoVe的對比分析表明，深層表徵優於僅從LSTM頂層派生的表徵。我們的訓練模型和源代碼是開源的，我們希望ELMo為其他NLP任務提供類似的收益。

2 相關工作

由於能夠從大規模未標記文本中捕獲單詞的句法和語義信息，預訓練的詞向量（Turian等人，2010；Mikolov等人，2013；Pennington等人，2014）是大多數最先進NLP架構的標準組件，包括問答（Liu等人，2017）、文本蘊涵（Chen等人，2017）和語義角色標註（He等人，2017）。然而，這些學習詞向量的方法只允許對每個單詞進行上下文無關的表徵。

先前提出的方法克服了傳統詞向量的一些缺點，要麼使用子詞信息（subword information）來豐富傳統詞向量（如Wieting等人，2016；Bojanowski等人，2017），要麼為每個詞義學習單獨的向量（Neelakantan等人，2014）。我們的方法通過使用字符卷積從子詞單元（subword units）中受益，並且我們將多義信息無縫地合併到下游任務中，而無需明確地訓練以預測預定義的含義類。

其他的近期工作也聚焦在學習語境化的表徵。context2vec（Melamud等人，2016）使用雙向LSTM（Hochreiter和Schmidhuber，1997）圍繞一箇中樞詞對上下文編碼。其他的語境化嵌入學習方法在表徵中包括中樞詞本身，並且使用有監督的神經機器翻譯（MT）系統（CoVe；McCann等人，2017）或無監督語言模型（Peters等人，2017）的編碼器來計算表徵。這兩種方法都得益於大數據集，儘管機器翻譯方法受限於並行語料庫大小。在本文中，我們充分利用獲得豐富的單語數據的優勢，在一個大約有3000萬句話的語料庫上訓練我們的biLM。我們還將這些方法推廣到深層語境化表徵中，我們展示了這些方法在各類各樣的NLP任務中都能很好地工作。

以前的研究也表明，深層biRNN的不同層編碼不同類型的信息。例如，在深層LSTM的較低層次引入多任務句法監督（如詞性標註），可以提高較高層次任務的總體性能，例如，依存分析（Hashimoto等人，2017）或CCG超級標註(Søgaard和Goldberg, 2016)。在基於RNN的編碼器-解碼器機器翻譯系統中，Belinkov等人（2017）表明，在2層LSTM編碼器第一層學習到的表徵比第二層更擅長預測詞性標註。最後，用於編碼詞上下文的LSTM頂層已經被證明可以學習詞義表徵。我們表明，基於ELMo表徵修改的語言模型目標也會產生類似信號，並且對混合這些不同類型半監督的下游任務的學習模型是非常有益的。

Dai和Le（2015）以及Radachandran等人（2017）使用語言模型和序列自動編碼器預訓練編碼器-解碼器對，然後根據特定任務有監督微調。相比之下，在使用未標記數據預訓練之後，我們固定了權重並添加額外的特定任務的模型容量，從而使我們能夠利用大型、豐富和通用的biLM表徵，以應對下游訓練數據量要求較小的有監督模型的情況。

3 ELMo

不同於最廣泛使用的詞表徵（Pennington等人，2014），ELMo詞表徵是整個輸入語句的函數，如本節所述。它們是通過字符卷積在兩層biLM上計算的得來的（見3.1節），作為內部網絡狀態的線性函數（見3.2節）。此設置允許我們進行半監督學習，其中，biLM是在一個大規模語料庫上預訓練而來（見3.4節），並且很容易融入到各種現有的神經NLP架構中（見3.3節）。

3.1 雙向語言模型

給定一個包含N個符號的序列（t_1,t_2,...,t_N），一個前向語言模型，通過給定歷史（t_1,t_2,...,t_k-1），對符號t_k的概率建模，從而計算序列的概率：

。最近最先進的神經語言模型（J'Ozefowicz等人，2016；Melis等人，2017；Merity等人，2017）計算上下文無關的符號表徵x_LM_k（通過符號嵌入或者字符CNN），然後，沿著前向LSTM的L層通過。在每個位置k，每個LSTM層輸出一個上下文相關的表徵h_LM_k,j（向右），其中，j=1,2,...,L。LSTM頂層輸出h_LM_k,L（向右）通過softmax層來預測下一個符號t_k+1。

反向LM類似於前向LM，但它在序列反向上運行，根據未來上下文來預測前一個符號

。它可以以類似於前向LM方式來實現，在一個L層的深層模型中，給定(t_k+1,...,t_N)，每個反向LSTM層j生成t_k表徵h_LM_kj（向左）。

biLM組合了前向和反向LM。我們的公式聯合最大化前向和反向LM的對數似然：

。我們將前向和反向LM的符號表徵參數（Θ_x）和softmax層參數（Θ_s）綁定在一起，同時，在每個方向上，為LSTM維護單獨的參數。總的來說，該公式類似於Peters等人（2017）的方法，區別是，我們在雙向上共享一些權重，而不是完全獨立的參數。在下一節中，我們摒棄以前的工作，通過引入一種新方法來學習詞表徵，它是biLM層的線性組合。

3.2 ELMo

ELMo是biLM的中間層表徵的特定任務組合。對於每一個符號t_k，一個L層的biLM計算一個2L+1個表徵的集合

，其中，h_LM_k,0是符號層，並且對每個biLSTM層，h_LM_k,j=[h_LM_k,j(向右), h_LM_k,j(向左)]。

為了納入下游模型，ELMo將R中所有層摺疊進一個向量

。在最簡單的情況下，ELMo僅選擇頂層，E(R_k) = h_LM_k,L，如TagLM（Peters等人，2017）和Cove（Mc Cann等人，2017）。一般來說，我們計算biLM所有層的特定任務權重：

。在（1）中，s_task是softmax歸一化權重，並且標量參數r_task允許任務模型縮放整個ELMo向量r。對於優化過程具有實際意義（詳見附錄）。考慮到biLM的每一層的激活函數有不同分佈，在某些情況下，它也有助於在加權前對每一個biLM層應用歸一化（Ba等人，2016）。

3.3 使用biLM執行監督NLP任務

針對目標NLP任務，給出了一個預訓練的biLM和一個監督架構，利用biLM優化任務模型是一個簡單的過程。我們簡單地運行biLM，並且為每個單詞記錄所有的層表徵。然後，我們讓終端任務模型學習這些表徵的線性組合，如下所述。

首先考慮沒有biLM的監督模型的最低層。大多數監督NLP模型在最低層共享一個通用的架構，允許我們以一致且統一的方式添加ELMo。給定符號序列(t1,...,tN)，對於每個符號位置，使用預訓練的詞表徵和任意的字符表徵，形成一個上下文無關的符號表徵x_k，它是標準的。然後，通常地，模型使用雙向RNN、CNN、或前饋網絡形成一個上下文相關的表徵h_k。

為了將ELMo添加到監督模型中，我們首先凍結biLM的權重，並且把ELMo向量ELMo_task_k和x_k連接起來，並且將ELMo增強表徵[x_k, ELMo_task_k]傳遞到任務RNN中。對於某些任務（如SNLI、Squad），我們通過兩種方式進一步改進：一是通過引入另一組輸出特定線性權重，在任務RNN的輸出中包含ELMo；二是將h_k替換為[h_k, ELMo_task_k]。由於監督模型剩餘部分保持不變，這些添加可能發生在更復雜的神經網絡模型的上下文中。例如，請參見第4節中的SNLI實驗或者共指消解實驗，前者在biLSTM的後面跟著一個雙注意力層（bi-attention layer），後者將聚類模型分層到biLSTM上。

最後，我們發現，向ELMo中添加適量的丟棄（dropout）是有益的（Srivastava等人，2014），在某些情況下，通過向損失中添加r||w||_2_2來調整ELMo權重也是有益的。這給ELMo權重施加了一個歸納偏置，以接近所有biLM層的平均值。

3.4 預訓練的雙向語言模型架構

本文預訓練的biLM與J'Ozefowicz等人（2016）和Kim等人（2015）的架構相似。但是進行了修改，以支持雙向聯合訓練，但在LSTM層間增加了殘差連接。在這項工作中，我們關注大規模biLM，如Peters等人（2017）強調了使用biLM的重要性，而非僅前向LM和大規模訓練。

為了平衡整個語言模型的困惑度和模型的大小以及下游任務計算需求，同時，保持一個純基於字符的輸入表徵，我們將J´ozefowicz等人(2016)的單一最佳模型CNN-BIG-LSTM的所有嵌入和隱藏維度減半。最終模型使用L=2層biLSTM，其中有4096個單元和512個維度投影，以及一個從第一層到第二層的殘差連接。上下文不敏感類型表徵使用2048個字符n-gram卷積過濾器，後面是兩個高速路層（Srivastava等人，2015），以及一個向下的512表徵的線性投影。因此，biLM為每個輸入符號提供三層表徵，包括由於純字符輸入而在訓練集之外的那些表徵。相比之下，傳統詞嵌入方法只為詞彙表中符號提供一層表徵。

在1B Word Benchmark（Chelba等人，2014）上經過10個epoch訓練後，前向和反向困惑度平均值是39.7，而前向CNN-BIG-LSTM的困惑度是30.0。一般來說，我們發現前向和反向困惑度近似相等，反向的值略低。

一旦經過預訓練，biLM可以計算任務的表徵。在某些情況下，在特定於域的數據上微調biLM會導致困惑度顯著下降，並且增加下游任務的性能。這可以看做是一種領域遷移。因此，在大多數情況下，我們在下游任務中使用一個微調的biLM。詳見附錄。

4 評估

表1顯示了ELMo在六個基準NLP任務的不同集合中的性能。在所考慮的每一項任務中，僅添加ELMo就可以建立一個新的最先進的結果，與強基模型相比，相對誤差減少了6-20%。這是不同的集合模型架構和語言理解任務的一個非常普遍的結果。在本節的剩餘部分，我們提供了各個任務結果的高級草圖，有關完整的實驗細節，詳見附錄。

問答斯坦福大學的問答數據集SQuAD（Rajpurkar等人，2016）包含100K+個眾包問答對（crowd sourced question-answer pairs），其中答案是給定維基百科段落的一個跨度（span）。我們的基線模型（Clark和Gardner，2017）是Seo等人的雙向注意力流模型（Bidirectional Attention Flow model）的改進版本。它在雙向注意力組件之後增加了一個自我注意力層，簡化了一些池化操作，並將LSTM代替GRU（Cho等人，2014）。在基線模型中加入ELMo後，測試集F_1的性能從81.1%提高到85.8%，提高了4.7%，相對誤差降低了24.9%，整個單一模型的最新狀態提高了1.4%。11個成員的合奏將F_1的性能提高到了87.4%，這是提交排行榜時的最新水平。ELMo的4.7%的增長率也明顯高於將CoVe添加到基線模型的1.8%的增長率（McCann等人，2017）。

文本蘊涵 文本蘊涵是一類任務，它根據給定的一個前提，判斷一個假設是否為真。斯坦福大學自然語言推理（SNLI）語料庫 (Bowman等人, 2015)提供了大約550K個假設/前提對。我們的基線是來自Chen等人 (2017)的ESIM序列模型，它使用biLSTM來編碼前提和假設，後面跟著一個矩陣注意力層、一個局部推理層、另一個biLSTM推理組合層、以及輸出層之前的一個池化操作。總的來說，將ELMo添加到ESIM模型中，在五個隨機種子上，將平均準確率提高了0.7%。5個成員的合奏將整體準確率提高了89.3%，超過先前的合奏的88.9%的最佳準確率（Gong等人，2018）。

語義角色標註 語義角色標註（SRL）系統對句子的謂詞-論元建模，這通常被描述為回答"誰對誰做了什麼"。He等人（2017）將SRL建模為BIO標註問題，並使用一個正反向交叉的8層深層biLSTM，緊跟Zhou和Xu (2015)。如表1所示，當把ELMo 添加到He等人(2017)提出的單一模型的重新實現中，測試集F_1的性能從81.4%提升到84.6%，提升了3.2%，在OntoNotes基線上取得了新的最新水平（Pradhan等人，2013），並將之前的最佳合奏結果提升了1.2%。

共指消解 共指消解是文本中提到的聚類分析任務，指的是同一個潛在的現實世界實體。我們的基線模型是Lee等人 (2017)的端到端跨度（span）的神經模型。它首先使用biLSTM和注意力機制計算跨度（span）表徵，然後應用一個softmax排序模型，以發現共指鏈。在我們的實驗中，使用來自CoNLL 2012共享任務（Pradhan等人，2012）的OntoNotes共指註解，添加ELMo可以將F_1的平均性能從 67.2%提升到70.4%，提高了3.2%，建立了一個最新的最優水平，再次在F_1上將以前的最佳合奏結果的性能提高了1.6%。

命名實體抽取 CoNLL 2003 NER任務（Sang和Meulder，2003）由路透社RCV1 語料庫的新聞專線組成，該語料庫標記有四種不同實體類型（PER, LOC, ORG, MISC）。根據最新最先進的系統（Lample等人，2016；Peters等人，2017），基線模型使用預訓練詞嵌入，一個字符CNN表徵，兩個biLSTM層，以及一個隨機條件場（CRF）損失（Lafferty等人，2001），類似於Collobert等人的模型（2011）。如表1所示，我們的ELMo增強biLSTM-CRF在F_1上取得了5次平均92.22%的性能。我們的系統與Peters等人（2017）先前的最新技術的系統之間的關鍵區別是，我們允許任務模型學習所有biLM層的加權平均值，然而Peters等人(2017)僅使用biLM的頂層。如5.1節所示，使用所有層而不是最後一層可以提高跨多個任務的性能。

情感分析 斯坦福情感Treebank（SST-5；Socher等人，2013）中細粒度情感分類任務，涉及從五個標籤中選擇一個（從非常消極到非常積極）來描述電影評論的一個句子。這些語句中包含了各種語言現象（如習語）和複雜的句法結構（如難以學習的否定）。我們的基線模型是來自McCann等人（2017）的雙注意力分類網絡（BCN），它增加CoVe嵌入，保持了先前的最先進的結果。在BCN模型中，將CoVe替換為ELMo，可使絕對準確率比現有的最先進水平提高了1.0%。

5 分析

本節提供了剝離分析，以驗證我們的主要觀點，並闡明ELMo表徵的一些有趣方面。5.1節表明，在下游任務中使用深層語境化表徵，與僅使用頂層的先前工作相比，無論是biLM或MT編碼器生成，都可以提高性能，而且ELMo表徵提供了最佳整體性能。5.3節探討了不同類型的從biLM中捕獲的語境化信息，並且使用兩個內部任務評價來表明，較低層更好地表徵語法信息，較高層較好地捕獲語義信息，與MT編碼器一致。它還表明，我們的biLM始終提供比CoVe更豐富的表徵。此外，我們分析了敏感性因素，例如，ELMo在任務模型中所處的位置（5.2節）、訓練集大小（5.4節）、可視化ELMo學習的任務權重（5.5節）。

5.1 交替分層加權方案

為了組合biLM層，等式1有許多備選方案。以前的語境化表徵工作僅使用最後一層，無論是來自biLM（Peters等人，2017）或MT編碼器（Cove；McCann等人，2017）。正則化參數r的選擇也很重要，因為較大的值（例如r=1）有效地將加權函數減少到各層簡單平均值，而較小的值（例如r=0.001）允許各層權重發生變化。

表2比較了SQuAD, SNLI和SRL這些備選方案。包含所有層的表徵比僅使用最後一層的表徵提高了整體性能，並且最後一層的語境化表徵比基線提高了性能。例如，對於SQuAD，僅使用最後一個biLM層，在F_1上，比基線性能提高了3.9%。平均所有biLM 層而不是僅使用最後一層又將F_1的性能提高了0.3%（比較Last Only列和r=1列），並且允許任務模型學習單層權重又將F_1的性能提高了0.2%（比較r=1列和r=0.001列）。在大多數情況下，ELMo優先使用較小的r值，但NER（一個訓練集較小的任務）對r不敏感（未顯示）。

總體趨勢與CoVe相似，但基線增長較小。對於SNLI，使用r=1平均所有層，比僅使用最後一層，將準確率從88.2%提升到88.7%。與僅使用最後一層相比，使用r=1的情況下，SRL F_1的性能增加了0.1%，直到82.2%。

5.2 ELMo位置

本文中所有的任務架構只包含詞嵌入作為biRNN的最低層輸入。但是，我們發現，在特定任務架構中，將ELMo 作為biRNN 的輸出層，可以提升一些任務的總體結果。如表3所示，對於SNLI和SQuAD而言，在輸入層和輸出層都包含ELMo，比僅在輸入層包含ELMo，性能有改進，而對於SRL而言，性能最高。對此結果的一個可能解釋是，SNLI和SQuAD架構在biRNN層後使用注意力層，所以在此層引入ELMo，允許模型直接關注biLM的內部表徵。在SRL案例中，特定任務的上下文表徵比來自biLM的表徵更重要。

5.3 biLM表徵捕獲的信息

由於添加ELMo比單獨使用詞向量提高了性能，因此biLM的語境化表徵必須對NLP任務的有用信息進行編碼，而詞向量未捕獲這些信息。直覺上，biLM通過上下文消除單詞的歧義，想想"play"，就是一個多義詞。表4的頂部列出了使用GloVe向量的"play"的最相近的語義。它們有好幾種詞性（例如played和playing作為動詞，player和game作為名詞），但是集中在與"play"運動相關感官。相反，下面兩行顯示了SemCor數據集上最鄰近的語句（見下文），使用源語句中"play"的biLM上下文表徵。在這種情況下，biLM能夠消除源語句的詞性和詞義的歧義。

這些觀察結果可以用類似Belinkov等人 (2017) 的語境化表徵的內部任務評價來量化。為了隔離由biLM編碼的信息，這些表徵直接用於預測細粒度的詞義消歧任務 (WSD) 和詞性標註任務。使用這種方法，還可以和CoVe比較，以及每個單獨的層。

詞義消歧 對於一個句子，我們可以使用biLM表徵預測目標詞的含義，使用一個類似Melamud等人 (2016)的1-最鄰近方法。為此，首先我們使用biLM計算我們的訓練集Sem-Cor 3.0（Miller等人, 1994）中所有層表徵，然後取每個詞義表徵的平均值。在測試時，我們再次使用biLM目標詞的表徵，並且從訓練集中取最鄰近的語義，從WordNet返回到訓練中未觀察到的引理的第一感覺。

表格5在Raganato等人(2017a)的四個測試集的同一套測試組件中，使用Raganato等人(2017b)的評估框架比較了WSD結果。總的來說，biLM頂層表徵的F_1為69.0，並且在WSD上優於第一層。這與使用手工設計特徵（Iacobacci等人，2016）的最先進的特定WSD的監督模型有競爭力，並且是一個使用輔助粗粒度語義標註和詞性標註（Raganato等人，2017a）訓練的特定任務biLSTM。CoVe biLSTM層遵循與biLM層類似的模式（與第一層相比，第二層的整體性能更高），但是，我們的biLM優於CoVe biLSTM，後者跟蹤第一感覺基線。

詞性標註 為了檢測biLM是否捕獲基本語法，我們使用語境化表徵作為線性分類器的輸入，該分類器預測Penn Treebank(PTB) (Marcus等人, 1993)的華爾街日報部分的詞性標註。由於線性分類器只增加少量模型容量，這是biLM表徵的直接測試。與WSD類似，biLM表徵與精調且任務相關的biLSTM相比具有競爭力（Ling等人，2015；Ma和Hovy，2016）。但是，與WSD不同，第一個biLM層的準確度高於頂層，這與多任務訓練 (Søgaard和Goldberg, 2016; Hashimoto等人, 2017)和MT (Belinkov等人, 2017)的深層biLSTM的結果是一致的。CoVe的詞性標註的準確度與biLM類似，並且跟WSD一樣，biLM比CoVe編碼器取得更高準確度。

監督任務影響 總之，這些實驗證實了biLM中不同層代表了不同類型信息，並解釋了為什麼包含所有biLM層對下游任務最高性能是重要的。另外，相比CoVe，biLM表徵更易遷移到WSD和詞性標註任務中，這有助於說明為什麼在下游任務中ELMo優於CoVe。

5.4 樣本效率

將ELMo添加到模型中，可以顯著地提高樣本效率，包括獲取最佳性能的參數更新次數，以及整個訓練集大小。例如，未使用ELMo時，SRL模型在486個epoch訓練後達到最大F_1，使用ELMo後，模型在10個epoch就超過基線最大值，為達到相同性能所需的更新次數相對下降了98%。此外，ELMo增強模型使用更小的訓練集，比未使用ELMo效率更高。圖1比較了訓練全集百分比從0.1%到100%時，有無ELMo時基線模型的性能。ELMo 的改進對較小數據集來說是最大的，並且顯著地減少了達到給定性能水平的訓練集數量。在SRL情況下，ELMo模型使用1%的訓練集數據，與基線模型使用10%的訓練集數據，取得相同的F_1值。

5.5 可視化學習權重

圖2顯示了softmax歸一化學習的層權重。在輸入層，任務模型傾向於biLSTM首層。對於共指（coreference）和SQuAD，這是最受歡迎的，但是對其他任務來說，分佈的峰值要小一些。輸出層權重相對均衡，對較低層有輕微的偏好。

6 總結

我們介紹了一種通用方法，從biLM中學習高質量的深層的上下文相關的表徵，並且當將ELMo應用到廣泛的NLP任務時顯示很大的改善。通過剝離實驗（ablations）和其他可控實驗，我們也證實了，biLM有效地編碼了上下文單詞的不同類型的語法和語義信息，並且使用所有層提高了整個任務的性能。

參考

見原文

附錄

見原文

分享到:

閱讀更多 深度學習社區 的文章

關鍵字: 建模 Word 語境

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

ELMo深層語境化的詞表徵

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

家裡最近要裝修，選用哪種板材好？

深水怎麼選漂調漂？

為什麼炒菜老粘鍋，怎麼弄？

玉的仿格和玉的大小存關嗎？

許渾是唐朝才子，他的詩歌都帶有水的成分，請問他的名句是哪一句？為啥叫千首溼人？

狗狗生病了會有什麼表現？

南宋最後的精銳，百戰百勝的“岳家軍”，最後一戰為何全軍覆沒？

你在什麼情況下會去看中醫？

如果當時大秦帝國扶蘇繼承帝位，秦朝還會覆滅嗎？

如何看待英國首相約翰遜新冠病毒檢測結果呈陽性？會對英國防疫帶來哪些影響？

女兒7歲有點淘氣小叛逆，罵她就說老了不養你，應該怎樣管教引導？

寶寶1.5歲斷奶後給他喝鮮牛奶是不是不如奶粉好、長得快？

快22歲了，熬夜3年半，請問臉上膠原蛋白還能恢復嗎？

如何將自媒體在短時間內提升知名度？

做自媒體時，起初如何更快的發展？

如果當時孫權不殺關二爺，而是交還給劉備，會怎樣？

今年九月就大三了，預備要考研，想知道專碩與學碩有什麼不同？

考研以後，突然覺得不想去讀研了，該怎麼辦？

如果在垓下之戰中項羽沒有自刎，而是重回江東，那後來會怎樣，項羽會不會捲土重來？

頭條過原創了，但視頻發佈的領域不垂直，播放量低怎麼辦？

華雄威震十八路諸侯，曹操手下有哪些將領可以擊敗華雄？華雄的實力如何？

《三國演義》中董卓手下都督華雄與袁術帳下第一大將紀靈誰武力更強？

職場90後工作中最在乎的是什麼？

國產SUV有沒有比較好的推薦？

今天重溫了下火影，感覺佩恩之段是巔峰，你們覺得呢？

你能接受女兒同性戀嗎？為何？

因懷孕沒讓座，公交車上老人倚老賣老扇我兩耳光，說要教我做人，你怎麼看？

有人說最容易失業不是員工，而是老闆。他說的對嗎？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪