チュートリアル

Faster WhisperをDockerでワンパン起動させてみた (CUDA12)

Faster Whisperを使用して、手早くかつ効率的に音声認識を行う方法について、Dockerを使った手順を初心者にもわかりやすく解説します。Dockerを用いることで、環境依存を減らし、どのようなマシンでも同じ条件でFaster Wh...
音声処理

Faster WhisperのCTranslate2による高速な音声書き起こし【日本語版リポジトリ】

faster-whisper は、OpenAIのWhisperモデルをCTranslate2 を使って再実装したものです。CTranslate2は、Transformerモデルのための高速な推論エンジンです。この実装は、同じ精度でopena...
Python

Style-Bert-VITS2で生成した音声をVTube StudioとPython連携して表情を制御してみた

最新技術を駆使して、リアルタイムでキャラクターの表情をコントロールすることは、多くのバーチャルYouTuberやストリーマーにとって非常に興味深いトピックです。この記事では、Style-Bert-VITS2で生成した音声を使い、VTube ...
AIコードインタープリター

Dockerを活用してLocal-Code-Interpreterを手軽に始めよう

OpenAIのChatGPTコードインタープリター(現在は高度なデータ分析として再命名されています)は、AIモデル内でPythonコードを実行する革命的な機能を提供します。しかし、この機能はオンラインのサンドボックス内でコードを実行するため...
Python

OpenCodeInterpreter:データ収集用 Local-Code-Interpreter README【日本語版】

OpenAIのChatGPTコードインタープリター(高度なデータ分析)のローカル実装です。OpenCodeInterpreterのデータ収集用に調整されていますOpenCodeInterpreterリリース待ち。。。紹介OpenAIのコード...
チュートリアル

VTube StudioとPython連携してモーション発動させてみた

バーチャルYouTuber(VTuber)の世界では、配信や動画の中でキャラクターを動かすために様々な技術が用いられています。その中でも、VTube Studioはリアルタイムでのアバター制御に特化したアプリケーションとして広く利用されてい...
AIコードアシスタント

VS Code Continue と Geminiを使った 無料AIエディタ~使ってみた編①~

導入(Introduction)Continue(コンティニュー)とは? Continueは、VS Code(VSコード)とJetBrains(ジェットブレインズ)向けのオープンソースの自動操縦機能(autopilot)です。これは、任意の...
チュートリアル

VS Code Continue と Gemini(gemini-openai-proxy) を使った無料AIエディタ

開発者の間で、コーディング作業にChatGPTなどのAIを活用する動きが加速しています。しかし、これまではAIからの回答をコードベースに組み込むために、多くのコピーアンドペーストや編集作業が必要とされ、手間がかかっていました。そこで、VS ...
大規模言語モデル

PCを初期化してからLLMのリモート開発環境(LLaMA-Factory)を構築するまで

PCの初期化から始まり、LLM(大規模言語モデル)の開発環境を構築する過程は、初心者にとっても分かりやすいように段階を追って説明します。このプロセスには、必要なソフトウェアのインストールからSSH環境のリモート開発構築、そしてセキュリティ対...
AIアシスタント

Gemini-OpenAI-ProxyでOllamaとGemini Proを簡単接続

この記事では、OllamaのOpenAI APIに接続できる機能を活用して、Gemini-OpenAI-Proxyを通じてOpenAI APIのフォーマットをGeminiのフォーマットに変換し、Gemini Proと対話する方法について解説...