AI Benchmarking

日本語版：OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text～高品質な数学関連のウェブテキストを集めたオープンデータセット～

はじめに (Introduction)近年、大規模言語モデル(large language models)の発展により、数学的推論能力の向上が注目を集めています。特に、arXivやウェブ上の数十億トークンの数学文書を用いて事前学習を行ったM...

2024.04.15

AI

DeepSeek-Mathは、大規模言語モデルDeepSeekをベースに、数学関連タスクで高い性能を発揮するように追加学習したモデルです。このリポジトリでは、以下のモデルが公開されています。DeepSeekMath-Base: ベースモデル...

2024.04.15

AI

はじめにOSWorldは、実際のコンピュータ環境でオープンエンドなタスクを実行するマルチモーダルエージェントのベンチマークです。このリポジトリでは、環境、ベンチマーク、プロジェクトページが提供されています。主な特徴は以下の通りです:実際のデ...

2024.04.13

AGI

はじめに近年、大規模言語モデル(LLM)を用いた知的エージェントの開発が盛んになってきました。しかし、LLMとエージェントを効率的に統合・運用するには様々な課題があります。この論文では、LLMをオペレーティングシステム(OS)に組み込んだ「...

2024.03.27

AGI

概要（Abstract）はじめに（Introduction）本的な知覚（Fundamental Perception）基本的な知覚について多モーダル大規模モデル（multi-modal large models）の文脈において、「基本的な知...

2023.12.21

Gemini

「A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise」のintroductionをざっくりと解説していきます概要（Abstract）イントロダクシ...

2023.12.21

Gemini

タイトルA Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise著者Chaoyou Fu, Renrui Zhang, Zihan Wang, Yubo...

2023.12.21

Gemini