Loading [MathJax]/jax/output/HTML-CSS/config.js

AI評価

チュートリアル

Google ColabでGemma + DeepEval QA評価システム構築ガイド

Google Colabの無料環境でGemma3nモデルを使い、DeepEvalによる高度なLLM as a Judge評価を実現する完全ガイドです。複雑な設定は不要で、環境変数変更だけでプロフェッショナルなQA評価システムが構築できます。...
AI評価

llama.cpp × Gemma3nでlogprobs出力!詳細な確率分析(GoogleColab📒ノートブック付)

このノートブックでは、llama.cppでGemma3nを動かし、トークンの生成確率(logprobs)を詳細に分析する方法を解説します。このノートブックでできることGemma3nの修正済みGGUFを使用(Google公式版は動作しません!...
自然言語処理

OpenToM: AIが人の心を読む能力をテストするための新しいベンチマーク

OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマークOpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reaso...