言語モデルにおける思考連鎖推論の自己整合性の向上 (Self-Consistency Improves Chain of Thought Reasoning in Language Models)

要旨 (Abstract):
ザックリろんJ解説
はじめに (Introduction)
多様な推論パスに基づく自己整合性 (Self-Consistency Over Diverse Reasoning Paths)
実験 (Experiments)
関連研究
結論と議論
1. 再現性に関する記述
2. 倫理に関する記述
参考サイト
1. 関連

要旨 (Abstract):

大規模な事前学習済み言語モデルと思考連鎖プロンプティング(chain-of-thought prompting)を組み合わせることで、複雑な推論タスクにおいて励みになる結果が得られています。本論文では、新しいデコード戦略である自己整合性(self-consistency)を提案し、思考連鎖プロンプティングで使用されているナイーブな貪欲デコーディング(greedy decoding)を置き換えます。自己整合性は、貪欲的に最適な推論パスを選ぶのではなく、まず多様な推論パスのセットをサンプリングし、次にサンプリングされた推論パスを周辺化することで最も整合性の高い回答を選択します。自己整合性は、複雑な推論問題には通常、唯一の正解に至る複数の異なる思考方法があるという直感を利用しています。我々の広範な実証評価により、自己整合性が人気の算術推論およびコモンセンス推論ベンチマークにおいて、思考連鎖プロンプティングの性能を著しく向上させることが示されました。具体的には、GSM8K (+17.9%)、SVAMP (+11.0%)、AQuA (+12.2%)、StrategyQA (+6.4%)、ARC-challenge (+3.9%)などです。

こちらの記事もおすすめ

Pythonを使った数学問題の自動生成: データ拡張テクニック集

Pythonを使った数学問題の自動生成: データ拡張テクニック集データサイエンスにおいて、質の高いデータを大量に用意することは重要ですが、データが不足している場合もあります。そこで、データ拡張（Data Augmentation）の手法を用...

JAXとWandbとSelf-Consistencyを使ったGemma Instruct 2Bモデルのファインチューニング入門

このノートブックでは、Kaggleの"AI Mathematical Olympiad"コンペティションに向けて、JAXをバックエンドに使用してGemma Instruct 2Bモデルをファインチューニングする方法を解説します。また、Wei...

ザックリろんJ解説

1 名前：素人投稿日時：2023/05/01(月) 12:34:56 ID:hUjs4
＞＞1
論文見たけど、言語モデルの推論能力が上がったって話かな？

2 名前：自然言語処理修士投稿日時：2023/05/01(月) 12:36:12 ID:jSs3D
＞＞1
単に言語モデルの推論精度が上がっただけじゃなくて、「Self-consistency」っていう新しいデコード手法を使うことで、推論精度がかなり改善されたみたいだね。

3 名前：統計学者投稿日時：2023/05/01(月) 12:38:23 ID:Sjd39
＞＞2
Self-consistencyっていうのはどういう手法なの？単純にアンサンブル学習みたいなもの？

4 名前：言語学博士投稿日時：2023/05/01(月) 12:41:51 ID:djS38
＞＞3
いや、単純なアンサンブルとは違うみたい。言語モデルから多様な推論パスをサンプリングして、最終的な答えの整合性を取ることで推論精度を上げるらしい。要は人間が複数の思考プロセスを経て同じ答えに行き着くようなイメージかな。

5 名前：数学専攻学部生投稿日時：2023/05/01(月) 12:44:09 ID:eSw01
＞＞4
なるほど、要はモデルに内在する知識をうまく引き出す手法ってことか。でもサンプリングを繰り返すと計算コストが大変そうだけど大丈夫なのかな。

6 名前：機械学習エンジニア投稿日時：2023/05/01(月) 12:47:32 ID:Kdj39
＞＞5
GPT-3みたいな巨大なモデルだと確かに推論に時間がかかりそう。でも論文中の実験を見ると、サンプリング数が5〜10回程度でも十分精度が出るみたいだから、そこまでオーバーヘッドはなさそう。

7 名前：心理学者投稿日時：2023/05/01(月) 12:50:44 ID:pSj93
論文読んだけど面白い着想だね。人間の思考プロセスに近いアプローチだと思う。でもこの手法って結局正解が1つに定まるタスクにしか使えなそう。オープンエンドな対話生成とかには向かないのかな。

8 名前：言語学博士投稿日時：2023/05/01(月) 12:53:58 ID:djS38
＞＞7
その通り。あくまで正解が定まっているタスクが対象だね。将来的には生成されたテキスト間の整合性をうまく評価できれば、対話生成のような用途にも使えるようになるかもしれないけど。

9 名前：ディープラーニング研究者投稿日時：2023/05/01(月) 12:57:31 ID:Hst42
論文のTable 1を見ると、アンサーの集約方法による精度の違いが結構あるのが気になるな。weighted sumが一番良さそうだけど、単純なmajority voteでもかなり良い精度出てるし、どれが一番良いのかよくわからん。

10 名前：統計学者投稿日時：2023/05/01(月) 13:01:05 ID:Sjd39
＞＞9
そこは今後の研究課題だろうね。モデルの出力確率の正規化の有無とか、重み付け方によって結果が変わりそう。タスクに応じた最適化が必要かもしれない。

11 名前：素人投稿日時：2023/05/01(月) 13:04:48 ID:hUjs4
みんなの議論を聞いて、だいぶ理解が深まったわ。言語モデルもどんどん人間に近づいてきてるんだな。将来が楽しみだ。

12 名前：自然言語処理修士投稿日時：2023/05/01(月) 13:08:22 ID:jSs3D
＞＞11
言語モデルの進歩はめざましいよね。でもまだ完璧じゃないから過信は禁物だけど。Self-consistencyみたいな新しい手法でどんどん精度が上がっていくだろうけど、同時にモデルの説明性や公平性みたいな課題にもしっかり取り組んでいく必要があるよ。

はじめに (Introduction)

言語モデルは幅広いNLPタスクで目覚ましい成功を収めていますが、モデルの規模を大きくするだけでは推論能力の限界を克服できないと考えられています。この欠点に取り組むために、Wei et al. (2022)は思考連鎖プロンプティングを提案しました。これは、言語モデルにタスクを解決する際に人間が用いるような推論プロセスを模倣する一連の短い文を生成するようプロンプトを与える方法です。

例えば、「駐車場に3台の車があり、さらに2台の車が到着したとすると、駐車場には何台の車がありますか?」という質問に対して、単に「5」と答えるのではなく、言語モデルには次のような完全な思考の連鎖で答えるようプロンプトが与えられます。
「駐車場にはすでに3台の車がある。2台が到着する。今は3 + 2 = 5台の車がある。答えは5。」
思考連鎖プロンプティングは、多段階の推論タスクにおいてモデルの性能を大幅に向上させることが観察されています。

本論文では、思考連鎖プロンプティングで使用される貪欲デコーディング戦略を置き換える新しいデコーディング戦略である自己整合性(self-consistency)を導入し、言語モデルの推論性能をさらに大幅に向上させます。自己整合性は、複雑な推論タスクでは通常、正解に到達する複数の推論パスが存在するという直感を利用しています。問題により深い思考と分析が必要であるほど、答えを導き出すことができる推論パスの多様性は大きくなります。

図1は、自己整合性の方法を例を用いて説明しています。まず、思考連鎖プロンプティングで言語モデルにプロンプトを与えます。次に、最適な推論パスを貪欲にデコードする代わりに、「サンプリングと周辺化」のデコード手順を提案します。最初に、言語モデルのデコーダからサンプリングして、多様な推論パスのセットを生成します。各推論パスは異なる最終的な答えに至る可能性があるため、サンプリングされた推論パスを周辺化することで、最終的な答えのセットの中で最も整合性の高い答えを見つけます。このアプローチは、複数の異なる思考方法が同じ答えに導くなら、その最終的な答えが正しいという確信がより強くなるという人間の経験に類似しています。他のデコード方法と比較して、自己整合性は貪欲デコーディングを悩ませる反復性やローカルな最適性を回避しつつ、単一のサンプリングされた生成の確率論的性質を緩和します。

自己整合性は、追加の検証器(verifier)を訓練したり、生成品質を向上させるために追加の人間のアノテーションを使用して再ランク付け(re-ranker)を訓練したりする従来のアプローチよりもはるかにシンプルです。その代わりに、自己整合性は完全に教師なしで、事前学習済みの言語モデルで追加のアノテーションや訓練、補助モデル、ファインチューニングを必要とせずにオフザシェルフで動作します。また、自己整合性は複数のモデルを訓練しその出力を集約する典型的なアンサンブルアプローチとも異なり、単一の言語モデル上で動作する「自己アンサンブル」のようなものです。

我々は、4つの異なる規模の言語モデル(公開されているUL2-20BとGPT-3-175B、高密度活性化デコーダのみのLaMDA-137BとPaLM-540B)を用いて、幅広い算術推論およびコモンセンス推論タスクにおいて自己整合性を評価しました。4つの言語モデルすべてにおいて、自己整合性はすべてのタスクで思考連鎖プロンプティングを大幅に上回りました。特に、PaLM-540BやGPT-3を使用した場合、自己整合性は算術推論タスクにおいて新たなstate-of-the-artのレベルの性能を達成しました。具体的にはGSM8K (+17.9%)、SVAMP (+11.0%)、AQuA (+12.2%)、StrategyQA (+6.4%)、ARC-challenge (+3.9%)などのコモンセンス推論タスクにおいてです。追加の実験では、思考連鎖を追加することで標準的なプロンプティングと比較してパフォーマンスが低下する可能性のあるNLPタスクにおいても、自己整合性がパフォーマンスを頑健に向上させることができることを示しています。また、自己整合性はsample-and-rank、ビームサーチ、アンサンブルベースのアプローチを大幅に上回り、サンプリング戦略や不完全なプロンプトに対しても頑健であることを示しています。

多様な推論パスに基づく自己整合性 (Self-Consistency Over Diverse Reasoning Paths)

人間の顕著な特徴は、人それぞれ考え方が異なるということです。深く考える必要のあるタスクでは、問題に取り組むいくつかの方法があると考えるのは自然なことです。我々は、このようなプロセスは言語モデルのデコーダからのサンプリングによってシミュレートできると提案します。

例えば、図1に示すように、モデルは数学の質問に対して同じ正解に到達するいくつかの妥当な応答を生成できます(出力1と3)。言語モデルは完璧な推論器ではないため、モデルは誤った推論パスを生成したり、推論ステップのいずれかで間違いを犯したりする可能性もあります(例えば、出力2)。しかし、そのような解は同じ答えに到達する可能性が低くなります。つまり、正しい推論プロセスは多様であっても、誤ったプロセスよりも最終的な答えの一致度が高い傾向にあると我々は仮説を立てています。

我々はこの直感を利用して、以下の自己整合性の方法を提案します。まず、言語モデルに一連の手動で書かれた思考連鎖の例(Wei et al., 2022)をプロンプトとして与えます。次に、言語モデルのデコーダから候補出力のセットをサンプリングし、候補となる推論パスの多様なセットを生成します。自己整合性は、温度サンプリング(Ackley et al., 1985; Ficler & Goldberg, 2017)、top-kサンプリング(Fan et al., 2018; Holtzman et al., 2018; Radford et al., 2019)、nucleusサンプリング(Holtzman et al., 2020)など、ほとんどの既存のサンプリングアルゴリズムと互換性があります。最後に、サンプリングされた推論パスを周辺化し、生成された回答の中で最も整合性の高い回答を選択することで、回答を集約します。

より詳細には、生成された回答 a_i は固定された回答セット A からのものと仮定します。ここで、i = 1, ..., m はデコーダからサンプリングされた m 個の候補出力のインデックスです。プロンプトと質問が与えられると、自己整合性は追加の潜在変数 r_i を導入します。これは i 番目の出力における推論パスを表すトークンのシーケンスであり、r_i → a_i のように (r_i, a_i) の生成をカップリングします。つまり、推論パス r_i の生成はオプションであり、最終的な答え a_i に到達するためだけに使用されます。例として、図1の出力3を考えてみましょう。最初の数文「彼女は朝食に3つ食べる...だから彼女は9つの卵 * $2 = $18を持っている。」は r_i を構成し、最後の文「答えは$18」の18が a_i として解析されます。

モデルのデコーダから複数の (r_i, a_i) をサンプリングした後、自己整合性は r_i の周辺化を適用し、a_i に対して多数決を取ります。つまり、arg maxa Σ{i=1}^m 1(a_i = a) であり、最終的な回答セットの中で最も「整合性の高い」回答として定義されます。

表1では、異なる回答集約戦略を用いた場合の一連の推論タスクにおけるテスト精度を示しています。多数決に加えて、各 (r_i, a_i) に P(r_i, a_i | prompt, question) で重み付けして回答を集約することもできます。P(r_i, a_i | prompt, question) を計算するには、(prompt, question) が与えられたときにモデルが (r_i, a_i) を生成する正規化されていない確率を取るか、出力の長さで条件付き確率を正規化することができます(Brown et al., 2020)。

表1より、a_i に直接多数決を取る「非重み付き和」は、「正規化重み付き和」を用いて集約した場合と非常に似た精度になることがわかります。モデルの出力確率を詳しく見てみると、各 (r_i, a_i) の正規化条件付き確率 P(r_i, a_i | prompt, question) がお互いに非常に近いためであることがわかりました。つまり、言語モデルはこれらの生成を「同様に可能性が高い」と見なしています。さらに、回答を集約する際、表1の結果から、「正規化」重み付き和(式1)は、正規化されていないものに比べてはるかに高い精度を示すことがわかります。

自己整合性は、オープンエンドのテキスト生成と固定された答えを持つ最適なテキスト生成の間の興味深い空間を探索します。推論タスクでは通常、答えが固定されているため、研究者は一般的に貪欲デコーディングアプローチを検討してきました。しかし、答えが固定されている場合でも、推論プロセスに多様性を導入することは非常に有益であることがわかりました。そのため、オープンテキスト生成でよく使われるサンプリングを活用して、この目標を達成します。自己整合性は最終的な答えが固定された回答セットからのものである問題にのみ適用できますが、原理的には、複数の生成の間で整合性の良い指標を定義できれば(例えば、2つの答えが一致するか矛盾するかなど)、このアプローチをオープンテキスト生成問題に拡張することができます。

実験 (Experiments)

我々は一連の実験を行い、提案された自己整合性の方法を、幅広い推論ベンチマークにおける既存のアプローチと比較しました。自己整合性は、検討したすべての言語モデルにおいて、幅広いモデルスケールにわたって推論精度を頑健に向上させることがわかりました。

実験設定

タスクとデータセット:

自己整合性を以下の推論ベンチマークで評価します。

算術推論: Math Word Problem Repository (Koncel-Kedziorski et al., 2016) を使用し、AddSub (Hosseini et al., 2014)、MultiArith (Roy & Roth, 2015)、ASDiv (Miao et al., 2020) を含みます。また、AQUA-RAT (Ling et al., 2017)、最近公開された学年算数問題のベンチマーク (GSM8K; Cobbe et al., 2021)、数学の文章題に関する難問データセット (SVAMP; Patel et al., 2021) も含めました。
コモンセンス推論: CommonsenseQA (Talmor et al., 2019)、StrategyQA (Geva et al., 2021)、AI2 Reasoning Challenge (ARC) (Clark et al., 2018) を使用しました。
記号的推論: Wei et al. (2022) から、最後の文字連結 (例: 入力は "Elon Musk" で、出力は "nk" であるべき)、Coinflip (例: コインが表向きの状態で数回反転させた後、コインはまだ表向きか?) の2つの記号的推論タスクを評価します。

言語モデルとプロンプト:

自己整合性を、以下の4つの異なる規模のトランスフォーマーベースの言語モデルで評価します。

UL2 (Tay et al., 2022): 200億のパラメータを持つ、複数のdenoiserで学習されたエンコーダ-デコーダモデル。UL2は完全にオープンソース化されており、パラメータ数がわずか200億でゼロショットSuperGLUEでGPT-3と同等以上の性能を持つため、計算コストが抑えられます。
GPT-3 (Brown et al., 2020): 1750億のパラメータを持つモデル。再現性を高めるため、Codexシリーズ (Chen et al., 2021) のパブリックエンジンcode-davinci-001とcode-davinci-002を使用します。
LaMDA-137B (Thoppilan et al., 2022): 1370億のパラメータを持つ、Webドキュメント、対話データ、Wikipediaを用いて事前学習された高密度の左から右へのデコーダのみの言語モデル。
PaLM-540B (Chowdhery et al., 2022): 5400億のパラメータを持つ、フィルタリングされたWebページ、書籍、Wikipedia、ニュース記事、ソースコード、ソーシャルメディア会話の7800億トークンの高品質コーパスを用いて事前学習された高密度の左から右へのデコーダのみの言語モデル。

言語モデルの訓練やファインチューニングは行わず、few-shotの設定ですべての実験を行います。公平な比較のため、Wei et al. (2022) と同じプロンプトを使用します。すべての算術推論タスクでは、手動で書かれた8つの例を同じセットで使用し、各コモンセンス推論タスクでは、手動で作成された思考連鎖プロンプトを用いて訓練セットからランダムに4〜7の例を選択します。使用したプロンプトの詳細は付録A.3に記載されています。

サンプリング方式:

多様な推論パスをサンプリングするために、オープンテキスト生成のためにRadford et al. (2019) とHoltzman et al. (2020) で提案されたものと同様の設定に従いました。具体的には、UL2-20BとLaMDA-137Bでは、T=0.5の温度サンプリングを適用し、最も確率の高いトップk (k=40) のトークンで切り捨てました。PaLM-540BではT=0.7、k=40を適用し、GPT-3ではT=0.7をトップkの切り捨てなしで使用しました。3.5節では、自己整合性がサンプリング戦略とパラメータに対して一般的に頑健であることを示すアブレーション研究を提供します。

主な結果

我々は、自己整合性の結果を10回の実行で平均化して報告します。各実行では、デコーダから独立に40個の出力をサンプリングしました。比較対象のベースラインは、貪欲デコーディングを用いた思考連鎖プロンプティング (Wei et al., 2022) であり、CoT-promptingと呼ばれています。これは、大規模言語モデルのデコーディングに以前から使用されている方法です (Chowdhery et al., 2022)。

算術推論:

結果を表2に示します。自己整合性は、4つの言語モデルすべてにおいて、思考連鎖プロンプティングと比較して算術推論の性能を大幅に向上させます。さらに驚くべきことに、言語モデルの規模が大きくなるほど、その向上幅はより顕著になります。例えば、UL2-20Bでは+3%〜6%の絶対精度の向上が見られますが、LaMDA-137BとGPT-3では+9%〜23%の向上が見られます。GPT-3やPaLM-540Bのようにほとんどのタスクですでに高い精度を達成しているより大規模なモデルでは、自己整合性はAQuAやGSM8Kのようなタスクで+12%〜18%、SVAMPとASDivで+7%〜11%という大幅な追加の向上をもたらしています。自己整合性により、ほぼすべてのタスクで新たなstate-of-the-artの結果を達成しました。自己整合性は教師なしでタスクに依存しないにもかかわらず、これらの結果は、タスク特有の訓練や、数千の例を用いたファインチューニングを必要とする既存のアプローチ(例えば、GSM8Kでは)と比較しても良好です。

コモンセンスと記号的推論:

表3にコモンセンスと記号的推論タスクの結果を示します。同様に、自己整合性は4つの言語モデルすべてで大幅な向上を示し、6つのタスクのうち5つでstate-of-the-artの結果を得ました。記号的推論では、入力プロンプトに2文字または2回の反転の例が含まれているが、4文字と4回の反転の例でテストするout-of-distribution (OOD) 設定でテストしました(この設定はPaLM-540BやGPT-3がすでに完璧なin-distribution精度を達成できるため、より難しい)。この困難なOOD設定では、十分なモデルサイズがあれば、自己整合性の向上はCoT-promptingと比較してもまだかなり大きいことがわかります。

サンプリングされた推論パスの数の効果を示すために、図2では、サンプリングされたパスの数(1, 5, 10, 20, 40)に対する精度(10回の実行の平均と標準偏差)をプロットしています。結果は、より多くの数(例えば40)の推論パスをサンプリングすることで、一貫してより良い性能が得られることを示しており、推論パスの多様性の重要性をさらに強調しています。

表4では、2つのタスクのいくつかの質問の例を用いて、自己整合性が貪欲デコーディングと比較してより豊かな推論パスのセットを生成することを示しています。

思考連鎖がパフォーマンスを低下させる場合の自己整合性の効果

Ye & Durrett (2022) は、few-shotの文脈内学習において、思考連鎖を追加することで標準的なプロンプティングと比較してパフォーマンスが低下する場合があることを示しました。ここでは、自己整合性を用いて、この差を埋めることができるかどうかを調べるための研究を行います。対象は、(1)クローズドブック質問応答:BoolQ (Clark et al., 2019)、HotpotQA (Yang et al., 2018)、(2)自然言語推論:e-SNLI (Camburu et al., 2018)、ANLI (Nie et al., 2020)、RTE (Dagan et al., 2005; Bar-Haim et al., 2006; Giampiccolo et al., 2007; Bentivogli et al., 2009) を含む一連の一般的なNLPタスクです。

PaLM-540Bでの結果を表5に示します。いくつかのタスク(例えば、ANLI-R1、e-SNLI、RTE)では、標準的なプロンプティング(Brown et al., 2020)と比較して、思考連鎖を追加するとパフォーマンスが低下しますが、自己整合性はパフォーマンスを頑健に向上させ、標準的なプロンプティングを上回ることができます。これにより、一般的なNLPタスクのfew-shotの文脈内学習において、根拠を追加する信頼できる方法となります。

他の既存のアプローチとの比較

我々はいくつかの追加の研究を行い、自己整合性がsample-and-rank、ビームサーチ、アンサンブルベースのアプローチを含む既存の手法を大幅に上回ることを示します。

Sample-and-Rankとの比較:

生成品質を向上させるために一般的に使用される手法の1つに、sample-and-rankがあります。これは、デコーダから複数のシーケンスをサンプリングし、各シーケンスの対数確率に基づいてランク付けするものです(Adiwardana et al., 2020)。 GPT-3のcode-davinci-001で、自己整合性と同じ数のシーケンスをデコーダからサンプリングし、ランク付けされたシーケンスの最上位から最終的な答えを取ることで、自己整合性とsample-and-rankを比較しました。

結果を図3に示します。Sample-and-rankは、追加でサンプリングされたシーケンスとランク付けによって精度を向上させますが、自己整合性と比較するとその向上幅ははるかに小さいことがわかります。

ビームサーチとの比較:

表6では、UL2-20Bモデルにおいて、自己整合性をビームサーチデコーディングと比較しています。公平な比較のため、同じ数のビームと推論パスでの精度を報告しています。両方のタスクにおいて、自己整合性はビームサーチを大幅に上回っています。自己整合性は各推論パスをデコードするためにビームサーチを採用することもできますが(結果は「ビームサーチを使用した自己整合性」として示されています)、サンプリングを用いた自己整合性と比較するとその性能は劣ります。その理由は、ビームサーチでは出力の多様性が低くなるためです(Li & Jurafsky, 2016)。一方、自己整合性では、推論パスの多様性がより良い性能の鍵となります。

アンサンブルベースのアプローチとの比較:

さらに、自己整合性をfew-shot学習のためのアンサンブルベースの手法と比較します。特に、以下の2つの方法によるアンサンブルを検討します。(1)プロンプトの順序のパーミュテーション:プロンプト内の例を40回ランダムにパーミュテーションして、プロンプトの順序に対するモデルの感度を軽減します(Zhao et al., 2021; Lu et al., 2021)。(2)複数のプロンプトセット(Gao et al., 2021):3つの異なるプロンプトセットを手動で作成します。両方のアプローチで、貪欲デコーディングからの回答に対して多数決を取ってアンサンブルとしました。表7は、自己整合性と比較して、既存のアンサンブルベースのアプローチではその向上幅がはるかに小さいことを示しています。さらに、自己整合性は複数のモデルを訓練してその出力を集約する典型的なモデルアンサンブルアプローチとは異なり、単一の言語モデル上で動作する「自己アンサンブル」のようなものであることに注意してください。付録A.1.3では、自己整合性と比較して、モデルアンサンブルの性能がはるかに劣ることを示す複数のモデルのアンサンブル結果も示しています。

追加の研究

我々は、サンプリング戦略とパラメータに対する頑健性、不完全なプロンプトや自然言語ではない推論パスでの動作など、自己整合性手法のさまざまな側面を分析するためのいくつかの追加実験を行いました。

サンプリング戦略とスケーリングに対する自己整合性の頑健性:

図4(左)では、PaLM-540Bにおいて、温度サンプリング(Ackley et al., 1985; Ficler & Goldberg, 2017)のTの値、top-kサンプリング(Fan et al., 2018; Holtzman et al., 2018; Radford et al., 2019)のkの値、nucleusサンプリング(Holtzman et al., 2020)のpの値を変化させることで、自己整合性がサンプリング戦略とパラメータに対して頑健であることを示しています。図4(右)は、LaMDA-137Bモデルシリーズのすべての規模において、自己整合性が頑健に性能を向上させることを示しています。より小さなモデルでは、特定の能力(例えば算術)がモデルが十分な規模に達したときにのみ現れるため(Brown et al., 2020)、その向上幅は比較的小さくなっています。

不完全なプロンプトに対する自己整合性の頑健性の向上:

手動で構築されたプロンプトを用いたfew-shot学習では、人間のアノテータがプロンプトを作成する際に小さなミスをすることがあります。我々は、自己整合性が不完全なプロンプトに対する言語モデルの頑健性を向上させることができるかどうかをさらに調べました。表8にその結果を示します。不完全なプロンプトは貪欲デコーディングでの精度を低下させますが(17.1→14.9)、自己整合性はその差を埋めて頑健に結果を改善することができます。

さらに、一貫性(最終的に集約された答えに同意するデコード率)は精度と高い相関があることがわかりました(GSM8Kでの図5)。これは、自己整合性を使って、生成された解に対するモデルの不確実性の見積もりを提供できることを示唆しています。言い換えれば、一貫性が低いことをモデルの確信度が低いことの指標として使うことができます。つまり、自己整合性は、モデルが「自分が知らないことを知っている」ある程度の能力を付与しているのです。

自然言語ではない推論パスとゼロショットCoTに対する自己整合性の有効性:

我々はまた、中間的な推論の別の形態、例えば方程式(例:「駐車場にはすでに3台の車がある。さらに2台が到着する。今は3 + 2 = 5台の車がある。」から「3 + 2 = 5」へ)に対する自己整合性の概念の一般性をテストしました。結果は表8(「方程式によるプロンプト」)に示されています。自己整合性は中間的な方程式を生成することでも精度を向上させますが、自然言語の推論パスを生成する場合と比較すると、その向上幅は小さくなります。これは、方程式ははるかに短いため、デコードプロセスで多様性を生成する機会が少ないためです。さらに、ゼロショット思考連鎖(Kojima et al., 2022)での自己整合性をテストし、表8に示すように、自己整合性はゼロショットCoTでも有効であり、結果を大幅に改善することを示しました(+26.2%)。

結論と議論

我々は、自己整合性と呼ばれるシンプルで効果的な手法を導入し、それが幅広い算術推論およびコモンセンス推論タスクにおいて、さまざまな規模の4つの大規模言語モデルにわたって精度を大幅に改善することを観察しました。精度の向上以外にも、自己整合性は言語モデルを用いた推論タスクの実行時に根拠を収集するのに役立ち、言語モデルの出力の不確実性の見積もりとキャリブレーションの改善にも役立ちます。

自己整合性の1つの制限は、より多くの計算コストがかかることです。実践では、人々はパスの数を少なくすること(例えば5または10)から始めて、あまりコストをかけずにほとんどの向上を実現することができます。なぜなら、ほとんどの場合、パフォーマンスは素早く飽和するからです(図2)。将来の研究の一環として、自己整合性を使ってより良い教師ありデータを生成し、ファインチューニング後に単一の推論実行でより正確な予測ができるようにモデルをファインチューニングすることができます。さらに、言語モデルは時々不正確または無意味な推論パス(例えば、表4のStrategyQAの例では、2つの人口数が正確ではありません)を生成することがあり、モデルの根拠生成をより適切にグラウンディングするためのさらなる研究が必要です。

再現性に関する記述

実験では、さまざまな規模の4つの異なる言語モデルを使用しました。そのうちの2つは公開モデルです。UL2は完全にオープンソース化されたモデルで、モデルのチェックポイントは https://github.com/google-research/google-research/tree/master/ul2 で入手可能です。

GPT-3も公開モデルで、公開APIが https://openai.com/api/ で利用可能です。GPT-3については、再現性をさらに高めるために、Codexシリーズの公開エンジン(「code-davinci-001」と「code-davinci-002」)を2つ含めました。Codexは現在無料なので、誰でも結果を再現できます。さらに、公開されていないLaMDA-137BとPaLM-540Bを使用した結果については、付録A.3にすべてのタスクの正確な入力プロンプトを提供しています(ファインチューニングは行わず、オフザシェルフの言語モデルにプロンプティングのみを適用していることに注意してください)。

倫理に関する記述

議論で述べたように、言語モデルは時々無意味または非事実的な推論パスを生成することがあるため、言語モデルの出力には十分注意する必要があります。我々は主に推論タスクを扱っており、生成された根拠はモデルがどのように答えに到達したかを調べるためにのみ使用されています。生成された根拠を使って、モデルがある特定のタスクを実行する際に犯した間違いの理由や、モデルにバイアスが含まれているかどうかをさらにチェックすることもできるかもしれません。実世界で使用される言語モデルでは、モデルの予測をより適切にグラウンディングし、モデルの事実性と安全性を向上させるためのさらなる研究が必要です。これにより、モデルがユーザーに危害を与えないようにすることができます。

参考サイト

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propos...