Perspectives on the State and Future of Deep Learning – 2023～Q5(Transformers は将来の方向性として正しいのか？)の日本語解説～

AI・機械学習

2024.06.242024.01.04

Abstract
Interlocutor
Q1:最大の未解決問題
Q2:ディープラーニングの理解について
Q3:ディープラーニングは解釈可能になるのか？
Q4:ディープラーニングは学術なベンチマーキングを超えて進化しているのか？
Q5: Transformers は将来の方向性として正しいのか？
Q6:学問界は困難に直面しているのか？
参考サイト
1. 関連

Abstract

Perspectives on the State and Future of Deep Learning - 2023～アブストラクトの日本語解説～

AbstractGoal機械学習分野における現在の意見と問題点を詳細に記録これらの意見と問題点が時間の経過と共に変化していくかを追跡Plan人工知能が特異点に達するまで、この調査を定期的に実施重要なトピックに関する質問リストを最新の状態に保...

Interlocutor

Perspectives on the State and Future of Deep Learning - 2023～Q1(最大の未解決問題)の日本語解説～

AbstractInterlocutorMax Welling出典：Dr. Max Welling on how AI will impact the world, now and in the futureマックス・ウェリングの経歴マック...

Q1:最大の未解決問題

最も取り組むべきだが、まだ取り組まれていない大きな問題（Biggest problem）とは何か、またはその逆は何か。

Perspectives on the State and Future of Deep Learning - 2023～Q1(最大の未解決問題)の日本語解説～

AbstractInterlocutorMax Welling出典：Dr. Max Welling on how AI will impact the world, now and in the futureマックス・ウェリングの経歴マック...

Q2:ディープラーニングの理解について

なぜ私たちはディープラーニングの理解を深めていないのか？今後進展するのだろうか？仮に深層学習の理論が構築されたとして、それは実務家やエンジニアにとって有用なのだろうか？実務家やエンジニアに役立つのだろうか？

Perspectives on the State and Future of Deep Learning – 2023～Q2(ディープラーニングの理解について)の日本語解説～

AbstractInterlocutorQ1:最大の未解決問題最も取り組むべきだが、まだ取り組まれていない大きな問題（Biggest problem）とは何か、またはその逆は何か。Q2:ディープラーニングの理解についてなぜ私たちはディープラ...

Q3:ディープラーニングは解釈可能になるのか？

その必要があるのだろうか？LLMは解釈可能である必要があるのか？
LLMがテキストで説明できるのであれば解釈可能である必要があるのだろうか？

Perspectives on the State and Future of Deep Learning – 2023～Q3(ディープラーニングは解釈可能になるのか？)の日本語解説～

Q4:ディープラーニングは学術なベンチマーキングを超えて進化しているのか？

Perspectives on the State and Future of Deep Learning – 2023～Q4(ディープラーニングは学術的なベンチマーキングを超えて進化しているのか？)の日本語解説～

Q5: Transformers は将来の方向性として正しいのか？

トランスフォーマー（Transformers）は将来の方向性として正しいのか、それとも限界があるのでしょうか？今日流行っているパラダイムの根本的な限界は何ですか？私たちは、ディープラーニングを超えた新しいパラダイムが必要でしょうか？将来の改善は主にハードウェアの向上から来るのか、それとも基本的な方法の進歩から来るのでしょうか？

Alex Smola

トランスフォーマーは全ての解決策か？（Transformers）

トランスフォーマーはすべての問題に対する答えではありません。それはフォーリエ変換（Fourier Transform）が全ての答えではないのと同じですが、今のディープラーニングの基盤技術には大きく取り入れられています。

技術発展の停滞（Technological Stagnation）
我々は、トランスフォーマーを超越する新しい種類の機能やクラスが発見されるまで、現在のトランスフォーマーという技術と共に進む以外に選択肢がない状態です。

未来への展望（Future Prospects）
トランスフォーマーを大きく上回る性能を持つ、またはそれと同様の加速性をもつ新しい関数クラスが見つかるまでには、既存のハードウェアの慣性（Inertia of Deployed Hardware）も考慮に入れると、5年から10年かかる可能性があります。

スモーラ氏は、トランスフォーマーが現在のディープラーニング技術には必要だが、決して究極の解ではないと述べています。新しい技術の探索は続けられるべきであり、その過程は時間がかかるかもしれませんが、我々は技術進化のために待つ必要があると指摘しています。

Max Welling

スケーリングパラダイム（Scaling Paradigm）について

ウェリング氏は、現在私たちが取り組んでいるのは「スケーリング」のパラダイムであると述べています。この「スケーリング」とは、大量のデータと大型のモデルを用いて成果を上げるという手法のことです。

改善の限界とモデリングへの回帰（Improvement Limits and Return to Modeling）

彼はこのスケーリングによる改善が、いずれ限界に達し、モデリングへと回帰するだろうと予測しています。これはデータが使い尽くされるか、もしくは大型モデルの運用コストが高くなりすぎるために発生すると考えられます。

機械学習の本質と将来のアーキテクチャ（Essence of Machine Learning and Future Architectures）

機械学習は基本的に帰納的バイアス（Inductive Bias）とデータの間のバランスをとるものであり、ウェリング氏は、将来的にはトランスフォーマーを超え、スケールアップ可能で、より賢い帰納的バイアスが組み込まれた新しいアーキテクチャが出現すると予想しています。

Kyunghyun Cho

トランスフォーマーの将来について（Future of Transformers）

チョ氏は、トランスフォーマー（Transformers）は確かに未来を切り開いていると確信しています。これらは過去数十年間の優れた実践の結果であり、確率的勾配降下（stochastic gradient descent）、線形ショートカット接続（linear shortcut connections）、アテンションメカニズム（attention）、正規化された線形ユニット（rectified linear units）及び正規化（normalization）といった技術を統合しています。

トランスフォーマーの効果に関する見解（Opinion on the Effectiveness of Transformers）

トランスフォーマーが効果的に機能することに驚く必要はないと述べています。実際には、トランスフォーマーの効果に驚く人が多いことが意外であると感じています。

科学的探究への信念（Belief in Scientific Inquiry）

未来がどのように展開するかは不明ですが、科学的なトピックや研究の方向性の多様性が重要であると信じており、答えは「全ての上述の事項」と考えています。

これらのポイントは、チョ氏がトランスフォーマーの効果について現実的な視点を持ち、科学的な研究の未来に対して広い視野を持っていることを示しています。トランスフォーマーは既に多くの先進的な技術を取り入れているため、その成功は予想される結果だという立場を取っています。また、未来においては、研究の多様性が重要であり、どのような形であれ科学的探究が続くべきだというメッセージを伝えています。

Zachary Lipton

トランスフォーマーのアーキテクチャとその影響（Transformers' Architecture and Its Impact）

リプトン氏によると、トランスフォーマーは確かにパワフルなアーキテクチャを持っていますが、その役割が多少過大評価されている可能性があります。

アーキテクチャの真の効果についての疑問（Questions on the True Effectiveness of Architecture）

もし従来のRNNなどのアーキテクチャに同じレベルの投資をしていたら、同じような結果が得られていたのではないかと、彼は疑問を投げかけています。

トランスフォーマーの計算利点と現在の焦点（Computational Benefits of Transformers and Current Focus）

トランスフォーマーは計算の面でメリットがありますが、現在の主な進展は大規模並列計算の領域、特にGPT4やPaLMのようなモデルを多数のGPUやTPUを使って訓練することにあるとしています。

新しい学習方法と評価手法の開発（Development of New Learning Methods and Evaluation Techniques）

ウェブスケールでのデータ収集、事前学習、指示に基づいた微調整、タスク固有の微調整、文脈に応じた学習など、新しい学習方法と評価技術がAI研究を新たな段階へと進めていると述べています。

リプトン氏は、トランスフォーマーの成功がアーキテクチャの優れた点だけでなく、新しい学習方法や大規模計算の進歩によるものであると強調しており、これらの進歩がAI研究を未踏の分野へと導いていると言及しています。

Preetum Nakkiran

トランスフォーマーが全ての解ではない2つの理由（Two Reasons Transformers Aren't the Complete Solution）

ナッキラン氏によれば、トランスフォーマーが全ての問題に対する究極の答えであるとは考えにくいです。それには2つの理由があります。

学習手法の最適性に関する疑問（Questioning the Optimality of Learning Methods）

あらゆる条件下での全ての問題に対して、特定の学習手法が最も優れているというのは、非常に強い主張です。ナッキラン氏は、このような主張に対して懐疑的な立場をとっています。

常に改善され続けるエンジニアリングシステム（Ever-Improving Engineering Systems）

エンジニアリングシステムは、特定の非常に明確に定義された問題を解決している場合や、物理的な限界に達している場合を除き、最適であることはほとんどありません。自動車などがその例です。ナッキラン氏は、トランスフォーマーのアーキテクチャのどの部分が重要で、なぜ重要なのかを理解することで、これらの利点を直接利用するより良いアーキテクチャへとつながると考えています。

ナッキラン氏は、トランスフォーマーが特定の分野では非常に有効なツールであることは認めつつも、その有効性には限界があり、改善の余地が常に存在すると述べています。彼は、トランスフォーマーアーキテクチャのどの部分が重要であるか、そしてなぜ重要であるかをより深く理解することで、これらの利点を直接活用する新しいアーキテクチャが開発されることに期待を寄せています。

Andrew Gordon Wilson

トランスフォーマーの将来性とその限界（Transformers' Potential and Limitations）

トランスフォーマーは前進の方向を示していますが、それには制限があります。

一般用途アルゴリズムの開発（Development of General-Purpose Algorithms）

トランスフォーマーはさまざまなドメインの問題を解決可能な一般用途アルゴリズムの開発を可能にするかもしれませんが、これが学習アルゴリズムの最終段階ではないことを「無料の昼食定理（no free lunch theorems）」は示唆しています。

学習アルゴリズムの進化（Evolution of Learning Algorithms）

トランスフォーマーは現段階では多くのデータを必要とするため、学習アルゴリズムとしての完成形ではありません。

ソフトプライオリティの統合（Integration of Soft Priors）

表現力を制限することなくソフトプライオリティを含める方法を示す研究が、これらの問題の解決に役立つ可能性があります。

計画の統合と多モーダル学習（Integration of Planning and Multimodal Learning）

計画を統合することは、今後のモデルにとって重要な方向性であり、多モーダル学習は未来であるとウィルソン氏は考えています。また、ニューラル言語モデル（LLMs）は自動回帰モデルから離れていくかもしれません。

新しいアーキテクチャの開発（Development of New Architectures）

トランスフォーマーは多モーダルデータを処理できますが、新しいモダリティやモダリティの融合に対応するために、新しい非自明なアーキテクチャを開発する可能性があります。

ウィルソン氏はテキストのみが全般的な知能への道ではないと述べ、新しいアーキテクチャが多様なモダリティを統合し、より賢い帰納的バイアスを組み込んで、トランスフォーマーを超える進化を遂げることを示唆しています。そして、今後数年間で多くの応用研究論文が多モーダルデータセットを取り入れることになると予測しています。

Melanie Mitchell

トランスフォーマーと「人間レベルの知能」（Transformers and 'Human-Level Intelligence'）

トランスフォーマーが将来的な解決策であるかは、目指すゴールに依存しますが、「人間レベルの知能」に関しては、現在のトランスフォーマーは生物の脳や学習方法とは大きく異なる点が多いです。

人間の脳や心、学習方法の主要な特徴（Key Features of Human Brains, Minds, and Learning Methods）

エピソード記憶（Episodic Memory）: 人生の経験を長期間記憶し、状況に応じてそれを思い出す能力。
メタ認知（Metacognition）: 自分の思考について考え、それを他人に伝える能力。
動的なシミュレーション/想像（Dynamic Simulation/Imagination）: 物理的、社会的なシナリオを頭の中で描いて推理し、予測する能力。

人間らしい相互作用と環境適応性（Human-like Interaction and Environmental Adaptability）

積極的な世界との相互作用: 学ぶ内容や環境にどう影響を与えるかを選択し、予測をテストして内部モデルを調整すること。
感覚システム、多モーダル統合（Sensory Systems, Multimodal Integration）: 複数の感覚を統合し、それを利用する能力。
モーターシステム、脳と体の統合（Motor Systems, Integration of Brain and Body）: 身体の動きと脳の活動を統合すること。

注目すべきその他の違い（Other Notable Differences）

上記は例にすぎず、生物学的な知能と現在のAIの間には、まだ多くの重要な違いがあります。

ミッチェルのコメントは、トランスフォーマーが有効な道具である一方で、人間のような複雑な思考や学習能力を模倣するためには、さらなる進化が必要であることを示唆しています。現在の人工知能は、人間の脳の多様な機能を完全に再現するには至っておらず、真の「人間レベルの知能」を実現するための研究が続けられています。

まとめ

トランスフォーマーとは、機械学習の分野で使用される一種のモデルやアルゴリズムのことですが、これが全ての問題に対する完璧な解答であるわけではありません。現在のところ、トランスフォーマーは進化の途中にあり、技術はまだ発展途上です。今の時代は、膨大なデータと大きなモデルを使って成果を出す「スケーリング」と呼ばれる方法が主流ですが、将来的には、新しい設計のコンピューターの構造（アーキテクチャ）へと移行していくと考えられています。
トランスフォーマーが上手く機能すること自体には特に驚く必要はなく、それよりも重要なのは科学的な探究の範囲を広げることです。科学的な探究において多様な研究分野が追求されることが、技術の進歩にとって鍵となります。
アーキテクチャの発展は、大量の計算を同時に行える能力や、新しい学びの方法に大きく依存しています。つまり、多数のコンピューターを連携させて複雑な計算を行う能力や、機械がより効率的に学ぶための新しい手法が、技術進化の重要な要素となっています。
そして、「人間レベルの知能」という目標に対しては、現在のトランスフォーマーはまだその複雑さを完全に再現する段階にはありません。人間の脳が持つような高度な思考や学習能力をコンピューターに実装しようとする研究は続いており、この分野ではまだ多くの課題が残されています。

Q6:学問界は困難に直面しているのか？

Perspectives on the State and Future of Deep Learning – 2023～Q6(学問界は困難に直面しているのか？)の日本語解説～

参考サイト

Perspectives on the State and Future of Deep Learning - 2023

The goal of this series is to chronicle opinions and issues in the field of machine learning as they stand today and as they change over time. The plan is to ho...