Transformers 從pytorch-pretrained-bert遷移_ _ 頭條網

這是從pytorch-pretrained-bert遷移到transformers時應注意的事項的快速摘要。

模型始終輸出tuple

從pytorch-pretrained-bert遷移到transformers時，主要的突破性變化是模型forward方法始終根據模型和配置參數輸出帶有各種元素的tuple。

每個模型的元組的確切內容在模型的文檔字符串和文檔(https://huggingface.co/transformers/)中進行了詳細說明。

在幾乎每種情況下，你都可以通過將輸出的第一個元素用作先前在pytorch-pretrained-bert中使用的輸出來正常工作。

這是BertForSequenceClassification分類模型的pytorch-pretrained-bert到transformers的轉換示例：

<code># 讓我們加載模型 model = BertForSequenceClassification.from_pretrained('bert-base-uncased') # 如果你以前在pytorch-pretrained-bert中使用此行： loss = model(input_ids, labels=labels) # 現在只需在transformers中使用以下代碼即可從輸出元組中提取loss： outputs = model(input_ids, labels=labels) loss = outputs[0] # 在transformers你也可以訪問logits： loss, logits = outputs[:2] # 將模型配置為輸出注意力權重的話，可以輸出注意力權重值(其他輸出，也請參閱文檔字符串和文檔) model = BertForSequenceClassification.from_pretrained('bert-base-uncased', output_attentions=True) outputs = model(input_ids, labels=labels) loss, logits, attentions = outputs/<code>

序列化

from_pretrained()方法的重大變化：

現在，在使用from_pretrained()方法實例化時，默認情況下將模型設置為評估模式。要訓練它們，不要忘記將它們重新設置為訓練模式(model.train())以激活dropout模塊。提供給from_pretrained()方法的附加*inputs和** kwargs參數通常直接傳遞給基礎模型的類init __()方法。現在，它們可用於首先更新模型配置屬性，這可以突破先前的BertForSequenceClassification示例構建的派生模型類。更確切地說，提供給from_pretrained()的位置參數* inputs被直接轉發給model的`

init ()方法，而與配置類屬性匹配的關鍵字參數** kwargs：(i)匹配配置類屬性用於更新所述屬性(ii)與任何配置類屬性都不匹配的屬性被轉發到model的init __()`方法。

同樣，雖然沒有什麼大的變化，但是序列化方法已經標準化，如果以前使用過任何其他序列化方法，則可能應該切換到新方法save_pretrained(save_directory)。

這是一個例子：

<code>###讓我們加載模型和令牌生成器 model = BertForSequenceClassification.from_pretrained('bert-base-uncased') tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') ### 對我們的模型和令牌生成器做一些事情 # 例如: 將新標記添加到模型的詞彙表和嵌入中 tokenizer.add_tokens(['[SPECIAL_TOKEN_1]', '[SPECIAL_TOKEN_2]']) model.resize_token_embeddings(len(tokenizer)) # 訓練模型 train(model) ### 現在讓我們將模型和tokenizer保存到目錄中 model.save_pretrained('./my_saved_model_directory/') tokenizer.save_pretrained('./my_saved_model_directory/') ### 重新加載模型和tokenizer model = BertForSequenceClassification.from_pretrained('./my_saved_model_directory/') tokenizer = BertTokenizer.from_pretrained('./my_saved_model_directory/')/<code>

優化程序：BertAdam和OpenAIAdam現在是AdamW，日程表是標準的PyTorch日程表

以前包括的兩個優化器，BertAdam和OpenAIAdam，已由單個的AdamW優化器代替，但有一些區別：

僅實現權重衰減校正，schedules現在是外部的(請參閱下文)，梯度裁剪現在也是外部的(請參閱下文)。

新的優化器AdamW與PyTorchAdam優化器API匹配，可讓你使用標準的PyTorch或apex方法進行schedule和裁剪。

現在，這些schedules已成為標準的PyTorch學習率調度程序，現在不再是優化程序的一部分。

以下是轉換示例：

<code># 參數: lr = 1e-3 max_grad_norm = 1.0 num_training_steps = 1000 num_warmup_steps = 100 warmup_proportion = float(num_warmup_steps) / float(num_training_steps) # 0.1 ### 以前，BertAdam優化器是這樣實例化的： optimizer = BertAdam(model.parameters(), lr=lr, schedule='warmup_linear', warmup=warmup_proportion, t_total=num_training_steps) ### 並像這樣使用： for batch in train_data: loss = model(batch) loss.backward() optimizer.step() ### 在“Transformer”中，優化器和schedules按如下方式拆分和實例化： optimizer = AdamW(model.parameters(), lr=lr, correct_bias=False) # 要重現BertAdam特定的行為，請設置correct_bias = False scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=num_warmup_steps, num_training_steps=num_training_steps) # PyTorch調度程序用法如下： for batch in train_data: model.train() loss = model(batch) loss.backward() torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm) # 梯度裁剪不再在AdamW中了(因此你可以毫無問題地使用放大器) optimizer.step() scheduler.step() optimizer.zero_grad()/<code>

模型始終輸出tuple

序列化

優化程序：BertAdam和OpenAIAdam現在是AdamW，日程表是標準的PyTorch日程表

相關文章:

Facebook最新語言模型XLM-R:多項任務刷新SOTA，超越單語BERT

「自然語言處理」ELECTRA：谷歌提出的新的預訓練架構

NLP面經集結 | 達摩院、騰訊、微軟、美團、百度

清華大學唐傑教授報告：《淺談人工智能的下個十年》

AI學習人類偏見 出乎開發者意料

NLP中各種各樣的編碼器

騰訊開源TurboTransformers,推理加速性能超TensorRT主流優化引擎

百分點認知智能實驗室出品：情感分析在輿情中的研發實踐（上）

深度語義理解在劇本角色情感分析中的探索與應用

美團對話理解技術及實踐

BERT面向語言理解的深度雙向變換預訓練

微軟亞研提出VL-BERT：通用的視覺-語言預訓練模型

UER-py開源預訓練模型框架

【ACL】深度融合模型KT-NET增強機器閱讀理解

BERT:最新BERT模型應用與改進論文集錦「附源碼」

萬字詳文：超越 BERT 模型的 ELECTRA 代碼解讀

流水的NLP鐵打的NER：命名實體識別實踐與探索

常見的 BERT Mask 策略

谷歌發佈可簡化設備中TensorFlow Lite模型部署的工具Model Maker

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

備考消防的幾大錯覺，你有這個情況嗎？

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

應急科普丨“五一” 期間氣溫回升 謹防森林火災隱患

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

工程發承包、工程造價條款，或迎來大調整

AI學習人類偏見出乎開發者意料

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患