LLM OllamaのK/V Context量子化で実現するVRAM削減とモデル性能向上 はじめに:K/V Context量子化とはOllamaに革新的な機能、K/V context cache量子化が実装されました。この技術により、LLM(大規模言語モデル)のVRAM使用量を大幅に削減しながら、より大きなコンテキストサイズやモ... 2024.12.05 LLMAIツールAI
AI・機械学習 Google Colab上でQLoRAを作成してGGUFに変換してみた はじめにこのコードは、Google Colab(無料版でOK)上でQLoRA (Quantized Low-Rank Adaptation)を使用して大規模言語モデルを訓練し、その後GGUF形式に変換するためのものです。それぞれの部分につい... 2024.01.13 AI・機械学習チュートリアル大規模言語モデル