33. 輕量化 Bert 應用範例

柯頌竹
Programming with Data
Feb 10, 2021

NLP 模型的應用上有兩大目標:改善預測指標以及計算速度,但很難同時達到,在Bert後的研究中,XLNet 和 RoBERTa 改善了性能,而 DistilBERT 提高了推理速度,會在本文介紹。

Bert輕量化應用法1 : 編碼器+邏輯斯回歸

邏輯斯回歸是最簡單的分類器模型,這樣應用也相當於在 Bert 模型後加上單層的類神經網路,如果要略微增加複雜度,可將邏輯斯回歸替換成其他機器學習的分類器模型。

Bert輕量化應用法2 : Distilled BERT

Distilled BERT是由 hugging face 在 2019 發表的論文中所提出的,我們在本章以及下一章使用 pytorch 來做 BERT 的套件 : transformers ,就是由 hugging face 在 Github 上開源的專案。

如其名,就是要把大型模型蒸餾(Distill)成小型模型,根據作者的實驗數據,DistilBERT 的參數大約只有 BERT 的 40%,而速度快了 60%,並保有一定一精準度。

--

--

柯頌竹
Programming with Data

熱愛自由行、參觀各種形式的展覽,踏上過20個國家的領土。歡迎詢問各種在歐洲自由行的問題。偶爾分享一下資料分析的讀書筆記。