ベンチマーク

AI・機械学習

言語モデルにおける思考連鎖推論の自己整合性の向上 (Self-Consistency Improves Chain of Thought Reasoning in Language Models)

要旨 (Abstract):大規模な事前学習済み言語モデルと思考連鎖プロンプティング(chain-of-thought prompting)を組み合わせることで、複雑な推論タスクにおいて励みになる結果が得られています。本論文では、新しいデコ...
AI・機械学習

Phi-3-Mini-128K-Instructモデルの概要

Phi-3-Mini-128K-Instructモデルの概要Phi-3-Mini-128K-Instructは、38億のパラメータを持つ軽量な最先端のオープンモデルです。Phi-3データセットを用いてトレーニングされており、合成データと高品...
自然言語処理

OpenToM: AIが人の心を読む能力をテストするための新しいベンチマーク

OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマークOpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reaso...