【ALC2020採択論文】Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

Published in

LSC PSD

29 min readAug 19, 2020

RoBERTaのような大規模モデルをあるドメインのタスクに適応させるためには、その事前学習済みモデルを、さらに特定のドメインに絞ったデータで追加の事前学習（中間タスク）させることが有用だということを示した論文です。ALC2020においてHonorable Mention Papersを受賞しています。

元論文はこちら

ちなみにGithubも公開済みです。

allenai/dont-stop-pretraining

Code associated with the Don't Stop Pretraining ACL 2020 paper @inproceedings{dontstoppretraining2020, author = {Suchin…

github.com

以下和訳です。

概要

本論文では、超大規模データセットで学習された事前学習済みモデルを、対象タスクのドメインに合わせてさらに事前学習させることが有用かどうかを調査しました。4つのドメイン（生物医学論文、コンピュータサイエンス論文、ニュース、Amazonレビュー）と8つの分類タスク(各ドメインで2つずつ）で実験を行った結果、二回目の事前学習（ドメイン適応型事前学習）を行う事によって、その事前学習に用いたリソースの多寡に関わらずモデルの性能が向上することが示されました。

さらに、ドメイン適応型事前学習を行った後に、対象タスクのラベル付けされていないデータにさらに適応させる（タスク適応型事前学習）ことで精度が向上することを示しました。

最後に、あるタスクにおいてドメイン適応型事前学習のためのデータがない場合には、単純なデータ選択アルゴリズムによってデータ拡張されたデータベースを用いることが、有効な代替手段となることを示しました。総じて、多段階の適応事前学習はタスクの性能を大きく向上させることが分かりました。

1 序論

今日頻繁に使用される自然言語における事前学習モデルは、大規模で複数ドメインにまたがったコーパス上で学習されています。例えばRoBERTaは百科事典、ニュース記事、文学作品、ウェブページなどありとあらゆるソースのデータを160GB以上用いて学習されました。その結果、RoBERTaは多くのタスクにおいてSoTAを達成しました。しかしながらRoBERTa上において、あるトピックやジャンルを特徴づけるような用語（「科学」や「推理小説」など）の分布が、あるタスクと関連付けられているかは不明です。最新の大規模な事前学習モデルは普遍的に機能するでしょうか、それとも特定のドメインのために別個事前学習モデルを構築する方が有用なのでしょうか。

ドメイン固有の、ラベル付けされていないデータ上での事前学習が有用であると示された研究もいくつかありますが、これらの研究では一度に一つのドメインのみを考慮しており、最新の言語モデルより小さく、多様性の低いコーパス上で事前学習された言語モデルを使用していました。さらに、ラベル付けされたタスクデータの量や、対象ドメインと事前学習コーパスの近さなどの要因によって、事前学習の恩恵がどのように変化するかまでは知られていません。（図1参照)

図1：データ分布の図。あるタスクデータ（濃い灰色)は観測可能なタスク分布から構成されており、通常はより大きい対象領域内（薄い灰色）からランダムサンプリングされたものとなりますが、これが必ず元のLM(neural Language Model)の事前学習領域に含まれている保証はありません。そのため、あるタスク分布と対象となるドメインの分布から得られたデータで事前学習を続けることには意味があるかもしれません。

そこで私たちはSoTAモデルの1つであるRoBERTaを用いてこの問題に取り掛かりました。4つのドメイン（生物医学系の論文、コンピュータサイエンス系の論文、ニュース、レビュー）と8つの分類タスク(各ドメインで2つずつ）で実験を行いました。この４つのドメインはいずれもRoBERTaの学習データに含まれています。RoBERTaに含まれていないドメインについては、そのドメイン上での継続した事前学習（ドメイン適応型事前学習、またはDAPT(Domain-Adaptive Pre-Training)と呼ぶ）によって、リソースの多寡にかかわらず、ターゲットドメインからのタスクの性能を向上させることは上記によって同時に示されます。

上記ではジャンルによって各ドメインを決めましたが、教師付き学習で使用されるコーパスのように、あるタスクに対して与えられたコーパスからドメインを誘導することも可能です。これは、直接的にタスクに結びついたコーパスで事前学習を行う事で性能をさらに向上させるかもしれないという疑問を私たちに投げかけます。私たちはドメイン適応型事前学習(DAPT)と、より小さいがより直接タスクに関連したコーパス、すなわちタスク分布から抽出されたラベルなしのタスクデータセットを用いたタスク適応型事前学習(TAPT)で、あるドメインに対する適応具合の比較を行いました。タスク適応型事前学習は有効であることが既に示されています(Howard and Ruder, 2018)が、最新モデルにおいては一般的に使用されていません。私たちはドメイン適応型事前学習の有無にかかわらず、TAPTがRoBERTaの性能を大きく押し上げていることを発見しました。

最後に、タスクの設計者やアノテーターが手動で作ったタスク分布にラベルの付いていないデータを追加した場合に、タスク適応型事前学習の利点が増大することを示します。この事実に触発され、私たちはタスクに関連するラベルの付いていないテキストを自動で追加する方法を提案し、これが特定の低リソースのケースでどの程度パフォーマンスを向上させるかを示します。全てのタスクにおいて、適応型事前学習技術を用いた私たちの結果は、最先端の技術に匹敵するものとなりました。

要約すると、この論文の貢献ポイントは以下の3つです。

4つのドメインと8つのタスクを対象に、低リソース環境から高リソース環境に至るまで、ドメインとタスクに適応した事前学習の効果の徹底した分析
ドメイン/タスク適応済み自然言語モデルの、ドメイン間及びタスク間での伝達可能性の調査
人が作ったデータセットでの事前学習の重要性の調査と、シンプルなデータ選択アルゴリズムを用いてこの性能に到達するための戦略。

2 背景：事前学習について

2018年以降のほとんどの自然言語処理(NLP)の研究は、2段階で学習されています。まずベースとなる自然言語モデル(LM)（多くの場合数百万のパラメータを持つ）が、ラベル付けされていない大規模なコーパス上で学習されます。事前学習済みモデルで学習された単語の分散表現は、その後下流タスクの教師あり学習で再利用され、第一段階のネットワークと分散表現は必要に応じてアップデートされます（ファインチューニング）。

このような事前学習済みLMの一つがRoBERTaです。元となるBERTと同じ変換器を使用しています。これは、文章の一部をMASKすること（つまりランダムにマスクされたトークンを予測するためのクロスエントロピー損失）で学習されています。RoBERTaのために使われたラベル付けされていない事前学習用コーパスは、色々な媒体を用いた160GB以上のテキストです。RoBERTaは様々なタスクにおいてSoTAを達成し、今日の研究のベースラインとなっています。

RoBERTaの事前学習用コーパスは複数のソースから得られていますが、これらのソースが英語のバリエーションを一般化する上で十分かどうかはまだ分かっていません。つまり、RoBERTaの領域外にあるものを理解することは非常に重要です。そのために、私たちはこの大規模なLMを
(i) あるドメイン固有のテキストによる大規模コーパス
(ii) 与えられたタスクに関連づけられているラベルなしデータ
という2つのカテゴリーのラベル付けされていないデータを用いてさらに事前学習させることで、より適応が出来るのではないかと考えました。

3 ドメイン適応型事前学習

私たちのドメイン適応型事前学習（DAPT）へのアプローチは簡単で、ラベル付けされていないドメイン固有のテキストによる大規模コーパスでRoBERTaの事前学習を続けるだけです。私たちが注目している4つのドメインは、生物医学系の論文、コンピュータサイエンス系の論文、REALNEWSのテキスト、それからAmazonのレビューです。これらのドメインが選ばれた理由は、過去の研究でも人気の分野で、下流で行うテキスト分類のためのデータセットがそれぞれ利用可能だったからです。表1に4つのドメイン全てのラベルなしデータセットの詳細と、RoBERTaの学習コーパスを示します。

表1. ドメイン固有のラベルなしデータのリスト。5列目と6列目では、DAPTの前(L_ROB)と後(L_DATA)における各ドメインからランダムにサンプリングされた50Kの文章において、RoBERTaのマスクされた単語に対する損失を記述しています（値は小さいほどいいです）。‡は、RoBERTaの事前学習コーパスに似ているソースから推定されたmasked LM lossです。

3.1 ドメイン間の類似性の分析

DAPTを実行する前に、対象ドメインとRoBERTaの事前学習ドメインの類似性の定量化を試みます。私たちは各ドメインからランダムサンプリングされた文書の中で最も頻繁に使用されるトークンの上位10,000個（ストップワードを除く）を使って考察を行いました。Amazonレビューを除く各ドメインのコーパスでは5万件の文書を、Amazonのレビューは1件あたりが短いので15万件の文書を用いました。また、RoBERTaの事前学習用コーパスは公開されていないため、RoBERTaの事前学習用コーパスと同様のソース(BookCorpus、STORIES、Wikipedia、RealNews)から5万件の文書を抽出し、同様にトークンを抜き出しました。図2はこれらのサンプル間のトークンの重複を示しています。RoBERTaの事前学習領域、ニュース、レビューはそれぞれ類似性があるのに対し、生物医学やコンピュータサイエンスは他分野と比べかなり異質な分野であることが分かります。この簡単な分析結果は、RoBERTaを異なるドメインに適応させることによって期待される利益の程度を表しています。

図2 各ドメイン間のトークンの重複率(%)。PTはRoBERTaの事前学習コーパスと類似したソースからのサンプルです。各ドメインの語彙は各ドメインから抽出された文書の中で最も頻繁に使われたトークン（ストップワードを除く）の上位10k個を考慮して作成されています。

3.2 実験

私たちの学習はRoBERTaの学習で使われた設定に従っています。RoBERTaを各ドメインに対して12.5Kステップ、つまり各ドメインのデータセットをTPUタイプv3–8上でシングルパスで学習させています（詳細は元論文の付録Bを参照）。この第2段階の事前学習の結果、各ドメインごとに1つずつ、計4つのドメイン適応済LMが生成されます。表1にDAPTの前後におけるRoBERTaのマスクされた単語の損失の値が書かれています。DAPT後にはNEWSを除く全てのドメインで、マスクされた単語の損失が減少していることが確認されました。複数ドメインにまたがったマスクされた単語の損失については本論文の付録Eで議論しています。

各ドメインについて、表２に示すようにそれぞれ2つのテキスト分類タスクによる実験も行いました。私たちのタスクは高リソースと低リソース(5K以下のラベル付き学習例、追加のラベルなしデータはないもの）の両方を設定して表しています。HYPERPARTISANについてはBeltagyら(2020）のデータ分割を使用しています。RCTについては同時予測のために全ての文を1つの長いシーケンスで表現しています。

表2 各種ターゲットタスクのデータセットの仕様です。✟は高リソース設定であることを示します。

ベースライン
ベースラインは既存のRoBERTaベースのモデルを用いて、各分類タスクに対して教師あり学習によるファインチューニングを行ったものを用いています。RoBERTaは現在の最先端(各タスクのSoTAは本論文の付録参照)と比べても大きく劣っているわけではない上、異なるドメインに適応するための単一のLMであるため、良いベースラインとして機能します。

分類タスクの構造
標準的な構造(Devlin et al., 2019)を用いています。私たちは予測のために最終層[CLS]トークンの表現をタスク固有の順伝播層に渡しました。

結果
結果を表3のDAPT列の下に示します（検証結果については付録Cを参照）。全ての領域において、DAPTがRoBERTaよりも改善されていることが観察されました。生物医学、コンピュータサイエンス、レビューではRoBARTaより一貫して性能がよくなっており、対象ドメインがRoBERTaのソースドメインから離れているほどDAPTが有用であることを示しています。これはリソースの多寡にかかわらず一貫しています。DAPTはAGNEWSの性能を向上させませんでしたが、HYPERPARTISANで観察された恩恵はRoBERTaのソースドメインとより近い関係にあるタスクにおいてもDAPTが有用である可能性を示唆しています。

表3 RoBERTaとDAPTと無関係ドメインのDAPT (¬ DAPT)の比較。この結果はCHEMPROTとCRTはMicro-F1で、それ以外はMacro-F1です。添え字は標準偏差で5つのランダムシードに対する平均を取っています。✟は高リソース設定です。最高の性能を達成したものについては太字としています。無関係なドメインについては3.3を参照してください。

3.3 DAPTのドメインの関連性

さらに各タスクについて、LMを対象ドメイン以外のドメインに適応させた設定とDAPTを比較しました。これは改善された結果がドメインに関係なく、より多くのデータに触れたことに起因している可能性がある場合を考慮したものです。この設定ではニュースにコンピュータサイエンスLMを、レビューに生物医学LMを、コンピュータサイエンスにニュースLMを、生物医学にレビューLMを使用しています。図2の単語重複統計を参考にこの対応を決めました。

結果は表3の最後の列(¬DAPT)です。各タスクにおいてDAPTは無関係なドメインへの適応(¬DAPT)より優位に優れており、ドメインに関連したデータを用いた事前学習の重要性が示唆されています。さらに¬DAPTはRoBERTaよりも最終タスクでの性能が低くなりました。つまりほとんどの場合、ドメインの関連性を考慮せずに事前学習を行うと、最終タスクでの性能が低下することが分かりました。しかし2つのタスク(SCIERCとACL-ARC)では、¬DAPTの方がRoBERTaよりわずかにスコアが高かったです。これはBaevskiら(2019）で指摘されているように、いくつかのケースでは任意の追加データによる継続的な事前学習が有用であることを示唆しているのかもしれません。

3.4 ドメインの重複

私たちのDAPTの分析はタスクデータが特定のドメインにどのように割り当てられるかについて事前の直感に基づいています。例えばHELPFULNESSのDAPTを実行するために、私たちはAmazonのレビューのみに適応し、REALNEWSの記事には適応させていません。しかし図2のグラデーションから分かる通り、ドメイン間の境界は実際には曖昧です。例えば単語の40%はレビューとニュースの間で共有されています。この重複を更に示すものとして、私たちは複数ドメインに重複する文書を定性的に特定しています。表4はレビュータスクとニュースの類似例です（他の例は本論文付録Dを参照）。実際、RoBERTaをニュースに適応させてもレビュータスクのパフォーマンスに有害にはならないことが分かりました（実際にニュースのDAPTはHELPFULNESSで65.5(2.3)、IMDBで95.0(0.1)を達成しました）。

表4 いくつかのドメインが他のドメインと重複している可能性があり、想定していない事前学習を生むかもしれない例です。REALNEWSの記事にもあるようなレビューの表現を背景色で表示しています。

この分析は包括的なものではありませんが、各ドメインが相互に排他的でないことを示しています。ドメインの領域を工夫することでより効果的なDAPTが得られる可能性もありますが、それは今後の研究に委ねます。一般的にコーパスが集められたプロセスを含むデータの出どころは、事前学習の手順を設計したり、領域外の汎化能力をテストする新しいベンチマークを作成する際には考慮しなければなりません。

4 タスク適応型事前学習

ある特定のタスクを解くために集められたデータセットは、より広い領域で使えるテキストのサブセットのみをカバーしていることが多いです。例えば、化学物質-タンパク質-疾患間の関係についてまとめられているCHEMPROTデータセットは、PubMedカテゴリの中から、最近発表されたインパクトの大きい記事を手動で選び、その要約に焦点を当てています。私たちはタスクデータがより広い領域の狭義のサブセットであるような場合は、事前学習にタスクデータセットそのものや、より広い領域のデータを用いることが有用である可能性を考えました。

タスク適応型事前学習（TAPT=Task-adaptive pretraining)は、与えられたタスクのためのラベルの付いていないデータセットで事前学習を行う事です。先行研究でもその有効性は示されています（Howard and Ruder, 2018)。DAPTと比較すると、TAPTはまた違ったトレードオフにぶつかります。つまり、データセットをタスクに近づけようとすればするほど、データセットのサイズは小さくなってしまうという問題です（学習データがタスクをよく表現できている場合に限る）。TAPTはDAPTより実行コストは低く、以下の実験で示しますが、TAPTの性能はDAPTとよく似ます。

4.1 実験

TAPTはDAPTと同様に２段階の事前学習RoBERTaで構成されていますが、扱うデータセットはタスク固有の学習データに基づいたもののみです。DAPTは12.5Kステップで学習させましたが、TAPTは100エポックで実行します。私たちはエポックごとに異なる単語をマスキングする事で、各データセットを人為的に増強させました（マスキング確率は0.15）。DAPTにおける実験と同様に、最終層[CLS]のトークン表現を、分類のためにタスク固有の順伝播層に渡しました。（ハイパーパラメータの詳細については元論文付録の表14を参照）

結果は表５の通りです。TAPTはRoBERTaのベースラインを一貫して改善させました。RoBERTaの事前学習コーパスに含まれていたニュース領域でも、TAPTによってスコアが向上したため、タスク適応させる優位性が示されています。TAPTとDAPTの違いに注目してみると、DAPTの方がリソースを多く消費するにもかかわらず（§5.3の表9参照）、TAPTはSCIERCなどいくつかのタスクでその性能がDAPTに肉薄しています。RCT, HYPERPARTISAN, AGNEWS, HELPFULNESS, IMDBでは結果がDAPTを上回っており、リソースの少なさに対する費用対効果の良さを強調しています。

DAPTとTAPTの併用
両者を併用した場合の効果を検討します。まずRoBERTaから始め、それにDAPTを適用し、次にTAPTを適用します。３段階の事前学習を行う事で、その計算量は全ての設定の中で最も多く要求されます。期待通り、DAPTとTAPTを組み合わせることで全てのタスクで最高のスコアを叩き出しました（表5）。

よってDAPT→TAPTと行う事でドメインとタスクの両方で最高の性能を出せることが分かりました。TAPT→DAPTの順で行う場合、タスクに関連するコーパスによる影響を受けやすくなってしまうと考えていますが、とにかく、複数の手順を組み合わせる事で下流の性能を向上させられる可能性を示しました。今後の研究ではより洗練されたドメインとタスクの分布を用いた事前学習を研究してもいいかもしれません。

別タスクへの転移
TAPTとDAPTの比較は、同じドメインの他のタスクに転移できるかどうかを調べる事でより完了します。例えば、RCTのラベル付けされていないデータを用いて言語モデルを更に学習させ、CHEMPROTのラベル付けされたデータを用いてモデルを調整してみます。この設定をTransfer-TAPTと呼ぶことにします。４つのドメインの、全てのタスクにおける結果を表６に示します。TAPTは、単一タスクに対する性能を引き出していると同時に、異なるタスクへの転移性を損ねていることが分かります。この結果は、与えられたドメイン内のタスクのデータ分布が異なる可能性があることを示しています。さらにこれは、広い領域への適応だけでは十分でない理由や、DAPT後のTAPTが有効である理由を説明することにもなっています。

5 TAPTのためのデータ拡張

第４章では教師付きタスクの学習データのみを用いて事前学習を継続して行いました。TAPTが上手くいったので、今度はあるタスク分布に属する管理されていない大量のデータの山から、人の手でデータを整理されたような例を考えます。

私たちは２つのストーリーを考えました。１つ目は、３つのタスク（RCT, HYPERPARTISAN, IMDB)について、人が集めた利用可能なコーパス（§5.1)に対し、より大きなラベルなしデータを集める方法です。２つ目に、大量のラベルなしデータにおいて、人が整理したデータが存在しない場合に、TAPTのための、タスク分布に基づいたラベルなしデータを収集する方法を考えます。

5.1 人によって整備されたTAPT(Curated TAPT)

データセットの作成において多くの場合、既知のソースからラベル付けされていない大量のコーパスを収集します。このコーパスのサイズは、データセットを作るのに許された予算に依存しており、しばしばダウンサンプリングされたものとなります。したがって、より大きなラベルなしコーパスでも、タスクの学習データと同様の分布を持つことが期待されます。さらにそれは色々な場面で利用可能です。私たちはTAPTにおけるそのようなコーパスの役割を探ります。

データ
RCTデータセットの学習データを500例(全体(180,000例)のわずか0.3%)にダウンサンプリングし、残りのトレーニングデータをラベルなしとして扱う事で、低リソース設定のRCT500をシミュレーションしてみます。HYPERPARTISANは低リソース設定と高リソース設定の２つがあります。私たちは高リソース設定の5,000例をラベルなしデータとして扱い、低リソースのデータをファインチューニング用に使用します。IMDBはアノテーターがラベル付きデータと同じ分布から抽出した、手動で追加で集めたラベルなしデータを使用しました(Maas et al., 2011)。

結果
Curated TAPT、普通のTAPT、DAPT+TAPTの結果の比較を表７に示しました。Curated TAPTは３つのデータセット全てにおいて§4で得られた先行結果をさらに改善させました。HYPERARTISANでは”DAPT+Curated TAPT”は選定されたTAPTの標準偏差内に全て収まっています。さらにCurated TAPTは完全にラベル付けされたRCTコーパスではラベル付けされたデータの僅か0.3%でDAPT+TAPTの95%の性能を達成しました。これらの結果は、タスク分布から大量のデータを集めることが最終タスクのパフォーマンスに非常に有効であることを示唆しています。タスク設計者は、事前学習によるモデル適応を支援するために、ラベル付けされていないタスクデータを大量に公開することを推奨します。

表7 ５つのランダムシードにわたって選定されたTAPTを用いた平均テストセット。

表8 RAND-TAPT（５０個の候補を持つ）とkNNTAPTセレクションを比較し、５つのランダムシードにわたる平均テストセットmicro-F1(CHEMPROTとRCT）とmacro-F1(ACL-ARC)の表。タスクデータの隣はドメインデータから選択されています。

5.2 TAPTのための自動データ選択

TAPTのためのラベルなしデータにアクセスできず、DAPTに必要な計算資源がないパターンを考えてみましょう（異なる事前学習段階における計算資源の詳細については表９を参照）。私たちは大規模領域にまたがったコーパスから、タスクの分布に一致するラベル付けされていないテキストを検索するための、単純な教師なし手法を提案します。私たちは、タスクとドメインの両方のテキストを共有空間に埋め込むことで、ドメインからタスクに関連したデータを見つけ出し、タスクデータからのクエリに基づいてドメインから候補を選択するようなアプローチを考えました。この埋め込み方法は数百万の文章をそこそこの時間で埋め込むことができるくらい軽量である必要があります。

図3 VAMPIREの図解。ラベル付けされていないCHEMPROT文と100万ある生物医学文を、訓練済みVIMPIREを使ってベクトル空間にマッピングします。そして各CHEMPROT文について、生物医学ドメインからk個の最近傍となる文を識別します。

このような制約の中で、私たちは軽量なbag-of-wordsモデルであるVAMPIRE(Gurururangan et al., 2019; 図3)を採用しました。私たちはタスクとドメインの両方からテキストの埋め込みを得るために、ドメインの大規模な重複排除サンプル（100万）上で、VAMPIREを事前学習させました。次に、各タスク文ごとにk個の候補を、埋め込み空間上でドメインサンプルの中から選択します。候補は(i)k近傍選択(kNN-TAPT), (ii)ランダム選択(RAND-TAPT）のいずれかです。私たちはTAPTと同様に、タスクデータと選択された候補データの両方を用いて、この拡張コーパス上でRoBERTaの事前学習を続けました。

結果
結果は表８の通りです。全てのケースでkNN-TAPTがTAPTより優れている事が分かります。RAND-TAPTはkNN-TAPTより悪いですが、RCTとACLARCについては標準偏差の範囲内です。kを増加させるとkNN-TAPTの性能は増加し、DAPTに近付きます。タスクデータの最近傍探索の例が元論文付録Fに示されています。今後は、kNN-TAPTのより詳細な研究、より洗練されたデータ選択方法、及び選定された例の多様性とタスクの関連性の間のトレードオフを検討する余地があります。

5.3 計算量

生物医学分野におけるRCT-500における、全手法の計算量を表9に示します。TAPTは単一のTPUタイプv3–8上でDAPTより60倍高速で、このタスクでのDAPTのストレージ要件はTAPTの580万倍になります。DAPT+TAPTでは３段階の事前学習が必要なため、一見すると非常にコストがかかるように見えますが、一回広い領域に言語モデルを適用させてしまえばその領域内の複数のタスクに使いまわすことが出来、タスクごとにTAPTを１回追加するだけで済みます。今回の実験ではCurated-TAPTが最も高いコスパを発揮しましたが、大規模な領域内データのCuratedにかかるコストも考慮する必要があります。kNN-TAPTのような自動手法はDAPTと比べてはるかに計算量が少なくて済みます。

表9 RCT-500タスクに適応するために必要な計算量。これまでに説明した様々なDAPT、TAPTと比較しています。

6 関連研究

ドメイン適応のための転移学習
先行研究では、ドメインでの事前学習を行う事の利点が示されています。私たちの研究は、大規模で多様な事前学習コーパスと対象ドメインとの間でのシフトがタスクへのパフォーマンスに与える影響についてのさらなる調査に貢献しました。他の研究（Huangら、2019)では、関心のあるドメインの言語モデル(LM)を一から学習させています。私たちは複数のドメインを探索しており、RoBERTaという強力な言語モデルから事前学習を行ったため、議論の余地なく費用対効果が優れています。

タスク適応のための転移学習
あるのラベル付けされていないデータ上での言語モデルの事前学習は、最終タスクのパフォーマンスに有益であることが先行研究によって示されています（例えば、Howard and Ruder, 2018; Phangら, 2018; Sunら, 2019）。同じタスクの学習データの分布とテストデータの分布の間のドメイン転移においては、DAPTはTAPTとほぼ同一とみなせます(Logeswaranら, 2019; Han and Eisenstein, 2019)。タスク分類器のファインチューニングのために言語モデリングを行ったり、タスク固有のデータに適応しながら入力の単純な構文構造を考慮するパターンもあります。私たちはDAPTとTAPTを比較し、第２段階の事前学習のためのデータセットサイズ、与えられたタスクのデータサンプルへの関連性、他のタスクやデータセットへの転移性に関して、それらの相互作用を比較しました。これらの詳細は元論文付録§Aの表11を参照してください。

転移学習のためのデータ選択
このテーマはNLPにおいて昔から研究され続けています。Daiら(2019）は１つのタスクに対して言語モデルを一から事前学習させるうえで最も適したコーパスを特定することに焦点を当てました。一方私たちは§5.2で様々なタスクに関連する例を選択しています。私たちの研究と並行して、AharoniとGoldberg(2020)は、効率性を考慮してDISTIBERTを用いて、埋め込み空間におけるコサイン類似度に基づくNMT(ニューラル機械翻訳）のためのデータ選択法を提案しています。私たちはVAMPIREを使ってテキスト分類タスクのためのTAPTデータの増強に焦点を当てました。Khandelwalら(2020）は、ドメインごとにデータを追加するだけで、それ以上の学習を必要とせずに事前学習させた言語モデルのドメイン適応を容易にするkNN-LMを導入しました。私たちの研究では人がデータを選定しており、(§5.1)、これは言語モデルの依存性を用いた適切なデータの収集のためのクローリング(Chakrabartiら,1999）に関連しています。

そもそもドメインとは？
ドメイン適応法は非常に人気であるにも関わらず、ほとんどの研究は、ドメインに対して直感的な理解に留まっているような気がします。いくつかの研究はこの問題に取り組んでいます。例えば、AharoniとGoldberg(2020)はドメインを「事前学習された言語モデルにおける文表現の、暗黙的なクラスタリング」と定義しました。私たちの研究ではDAPTとTAPTが互いに補完し合う事を示しており、これは様々なレベルの粒度（例えば特定の商品に対するAmazonレビュー、全てのAmazonレビュー、web上の全てのレビュー、webページ）のタスクによって定義されたドメインのスペクトルを示唆しています。

7 結論

私たちは、事前学習された言語モデルを、あるドメインや、そのドメイン内のタスクに適応させるためのいくつかの手法を調べました(表10にまとめました）。私たちの実験の結果、数億個のパラメータを持つモデルでさえ言語全体はおろか、単一のテキスト領域の複雑さを符号化するのに苦戦していることが明らかとなりました。私たちは特定のタスクや小さなコーパスのためにモデルを事前学習させることが非常に有意義であることを示しました。本研究で得られた知見は、大規模な言語モデルの研究と並行して、モデルを特化させるための研究も有益である可能性を示唆しています。私たちの結果はあくまでRoBERTaをベースにしたものですが、他の言語モデルに対しても応用できる汎用的な考え方です。私たちの結果は、TAPTのためのよりいいデータ選択、大規模な事前学習済みモデルのドメイン適応範囲変更、適応後の再利用可能な言語モデルの構築など、多くの将来性を魅せてくれます。