高速化

AI・機械学習

vLLMとPagedAttentionについて語るスレ

はじめに大規模言語モデル(LLM)の世界で、効率的な推論は常に課題となっています。この記事では、その課題に革新的なソリューションを提供する「vLLM」と「PagedAttention」について詳しく解説します。これらの技術が、どのようにLL...
音声処理

Whisper Medusaを試してみた:高速で正確な音声認識モデル

音声認識技術の進歩は目覚ましく、最近では精度と速度の両面で大きな改善が見られています。今回は、OpenAIのWhisperモデルをベースに、さらなる高速化を実現した「Whisper Medusa」を実際に試してみました。「Whisper-M...
AI・機械学習

🤗 Weights & Biases とUnslothを使用したMistral-7Bモデルのファインチューニング

はじめにこの記事では、unslothライブラリを使用して、Mistral-7Bモデルをファインチューニングする方法について解説します。unslothは、メモリ使用量を大幅に削減しながら、高速にファインチューニングを行うことができるライブラリ...