AI評価 - Sun wood AI labs.2

Google ColabでGemma + DeepEval QA評価システム構築ガイド

Google Colabの無料環境でGemma3nモデルを使い、DeepEvalによる高度なLLM as a Judge評価を実現する完全ガイドです。複雑な設定は不要で、環境変数変更だけでプロフェッショナルなQA評価システムが構築できます。...

2025.07.16

AI評価LLMチュートリアル

このノートブックでは、llama.cppでGemma3nを動かし、トークンの生成確率（logprobs）を詳細に分析する方法を解説します。このノートブックでできることGemma3nの修正済みGGUFを使用（Google公式版は動作しません！...

2025.07.12

AI・機械学習AI評価LLM開発環境

OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマークOpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reaso...

2024.04.17

AI評価自然言語処理