33. 輕量化 Bert 應用範例

Published in

Programming with Data

Feb 10, 2021

NLP 模型的應用上有兩大目標：改善預測指標以及計算速度，但很難同時達到，在Bert後的研究中，XLNet 和 RoBERTa 改善了性能，而 DistilBERT 提高了推理速度，會在本文介紹。

Bert輕量化應用法1 : 編碼器+邏輯斯回歸

邏輯斯回歸是最簡單的分類器模型，這樣應用也相當於在 Bert 模型後加上單層的類神經網路，如果要略微增加複雜度，可將邏輯斯回歸替換成其他機器學習的分類器模型。

Distilled BERT是由 hugging face 在 2019 發表的論文中所提出的，我們在本章以及下一章使用 pytorch 來做 BERT 的套件 : transformers ，就是由 hugging face 在 Github 上開源的專案。

如其名，就是要把大型模型蒸餾(Distill)成小型模型，根據作者的實驗數據，DistilBERT 的參數大約只有 BERT 的 40%，而速度快了 60%，並保有一定一精準度。