量子化

生成AI

無料Google Colabでできる📒 Wan2.1-T2I を使った高品質キャラクター画像生成ガイド

🚀 はじめにこのノートブックでは、Wan2.1-T2V-14BモデルとComfyUIを使用して、ハリウッド映画級の美しい妖怪キャラクターを生成する方法を解説します。Wan2.1_T2I_jupyter が無料のGoogle Colabで無事...
GPU

【完全解説】A100(40GB + RAM併用)環境でOllama(gpt-oss GGUF版)を動かし、OpenAI互換APIを構築する方法

本記事では、A100(40GB) GPU 環境を活用し、OllamaのGGUF量子化版 gpt-oss 20b / 120b モデルを動かして、OpenAI互換APIとして利用する方法を初心者でも分かるように解説します。GGUF量子化により...
AI・機械学習

Google Colab ✖ OpenAI GPT-OSS 20Bモデルのファインチューニング完全ガイド

🚀 はじめにこのチュートリアルでは、OpenAIの最新モデルGPT-OSS 20BをGoogle Colab L4 GPU(22GB VRAM)でファインチューニングする方法を解説します。UnslothライブラリとLoRAを使用することで、...
AIツール

マルチモデル K/V Context量子化 Ollamaベンチマークの コード解説

コードの全体構造ベンチマークツールは以下の主要なコンポーネントで構成されています:OllamaClientクラス:APIとの通信を管理ベンチマーク実行機能:複数モデルのテスト実行結果集計機能:モデル間の比較分析ロギング機能:詳細な実行ログの...
LLM

OllamaのK/V Context量子化の実践的検証と実装

はじめにOllamaにおけるK/V context cache量子化は、VRAM使用量を大幅に削減できる革新的な技術です。本記事では、実際の検証結果を基に、その効果と実用性について詳しく解説します。また、検証に使用したスクリプトのセットアッ...
LLM

OllamaのK/V Context量子化で実現するVRAM削減とモデル性能向上

はじめに:K/V Context量子化とはOllamaに革新的な機能、K/V context cache量子化が実装されました。この技術により、LLM(大規模言語モデル)のVRAM使用量を大幅に削減しながら、より大きなコンテキストサイズやモ...
AI・機械学習

AutoRound: 大規模言語モデルのための高度な量子化アルゴリズム

近年の大規模言語モデル (LLM) の進化は目覚ましいものですが、その性能と引き換えに、莫大な計算資源とメモリが必要となる点が課題となっています。AutoRoundは、この課題を解決するべく開発された、LLMのための高度な量子化アルゴリズム...
AI・機械学習

BitNetのリポジトリ日本語化

BitNetは、大規模言語モデルのための1ビットトランスフォーマーを拡張する新しい取り組みです。この記事では、BitNetの基本から最新の進展まで、初心者でも理解しやすいように解説します。論文「BitNet: Scaling 1-bit T...