メモリ削減

OllamaのK/V Context量子化で実現するVRAM削減とモデル性能向上

はじめに：K/V Context量子化とはOllamaに革新的な機能、K/V context cache量子化が実装されました。この技術により、LLM（大規模言語モデル）のVRAM使用量を大幅に削減しながら、より大きなコンテキストサイズやモ...

2024.12.05

AIAIツールLLM

Unslothを使った高速なLlama 3.2ファインチューニング入門 (📒ノートブック付)

はじめにUnslothは、LLM（大規模言語モデル）のファインチューニングを大幅に高速化するライブラリーです。従来の手法と比較して約2倍の速度向上を実現し、メモリ使用量も削減できます。この記事では、Llama 3.2モデルを例に、Unslo...

2024.10.28

大規模言語モデル機械学習