ベンチマーク

AIツール

マルチモデル K/V Context量子化 Ollamaベンチマークの コード解説

コードの全体構造ベンチマークツールは以下の主要なコンポーネントで構成されています:OllamaClientクラス:APIとの通信を管理ベンチマーク実行機能:複数モデルのテスト実行結果集計機能:モデル間の比較分析ロギング機能:詳細な実行ログの...
開発ツール

OllamaのK/V Context量子化の実践的検証と実装

はじめにOllamaにおけるK/V context cache量子化は、VRAM使用量を大幅に削減できる革新的な技術です。本記事では、実際の検証結果を基に、その効果と実用性について詳しく解説します。また、検証に使用したスクリプトのセットアッ...
AI・機械学習

言語モデルにおける思考連鎖推論の自己整合性の向上 (Self-Consistency Improves Chain of Thought Reasoning in Language Models)

要旨 (Abstract):大規模な事前学習済み言語モデルと思考連鎖プロンプティング(chain-of-thought prompting)を組み合わせることで、複雑な推論タスクにおいて励みになる結果が得られています。本論文では、新しいデコ...
AI・機械学習

Phi-3-Mini-128K-Instructモデルの概要

Phi-3-Mini-128K-Instructモデルの概要Phi-3-Mini-128K-Instructは、38億のパラメータを持つ軽量な最先端のオープンモデルです。Phi-3データセットを用いてトレーニングされており、合成データと高品...
自然言語処理

OpenToM: AIが人の心を読む能力をテストするための新しいベンチマーク

OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマークOpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reaso...