チュートリアル Google ColabでGemma + DeepEval QA評価システム構築ガイド Google Colabの無料環境でGemma3nモデルを使い、DeepEvalによる高度なLLM as a Judge評価を実現する完全ガイドです。複雑な設定は不要で、環境変数変更だけでプロフェッショナルなQA評価システムが構築できます。... 2025.07.16 チュートリアルAI評価LLM
AI評価 llama.cpp × Gemma3nでlogprobs出力!詳細な確率分析(GoogleColab📒ノートブック付) このノートブックでは、llama.cppでGemma3nを動かし、トークンの生成確率(logprobs)を詳細に分析する方法を解説します。このノートブックでできることGemma3nの修正済みGGUFを使用(Google公式版は動作しません!... 2025.07.12 AI評価開発環境AI・機械学習LLM
自然言語処理 OpenToM: AIが人の心を読む能力をテストするための新しいベンチマーク OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマークOpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reaso... 2024.04.17 自然言語処理AI評価