python

LLM

Style-Bert-VITS2でずんだもんの声を学習させてみた(GoogleColabのノート付き)

近年、AI技術の進化は目覚ましく、その一環として音声合成技術も大きく前進しています。特に、話者の声質や話し方を模倣する技術は、エンターテイメントから教育まで幅広い分野での応用が期待されています。この記事では、Style-Bert-VITS2...
LLM

Local RAGをWindowsのOllama for Windows (Preview)で動かしてみた

最近、Windowsで動作するOllama for Windows (Preview)を使って、Local RAG(Retrieval Augmented Generation)を体験してみました。この記事では、そのプロセスと私の体験をステ...
AGI

OpenCodeInterpreterのデモを触ってみた

OpenCodeInterpreterは、開発者やプログラミング愛好家の間で注目を集めています。その公式デモを体験し、その機能と制約について深堀りしてみました。この記事では、m-a-p/OpenCodeInterpreter-DS-6.7B...
AGI

【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合

OpenCodeInterpreter: コード生成、実行、および改善の統合 | こちらの記事もおすすめ🌟 近日中の新機能💡 OpenCodeInterpreter-SC2シリーズモデル(StarCoder2ベース)のオープンソ...
AI

TTS Arena: 実際の環境でテキストから音声へのモデルを評価する

TTS Arena: Benchmarking Text-to-Speech Models in the Wildこちらの記事の日本語版です。導入 (Introduction)テキストから音声への変換モデル(TTSモデル)の品質を自動的に測...
AI実況

Faster WhisperをDockerでワンパン起動させてみた (CUDA12)

Faster Whisperを使用して、手早くかつ効率的に音声認識を行う方法について、Dockerを使った手順を初心者にもわかりやすく解説します。Dockerを用いることで、環境依存を減らし、どのようなマシンでも同じ条件でFaster Wh...
AI実況

Faster WhisperのCTranslate2による高速な音声書き起こし【日本語版リポジトリ】

faster-whisper は、OpenAIのWhisperモデルをCTranslate2 を使って再実装したものです。CTranslate2は、Transformerモデルのための高速な推論エンジンです。この実装は、同じ精度でopena...
AI実況

Style-Bert-VITS2で生成した音声をVTube StudioとPython連携して表情を制御してみた

最新技術を駆使して、リアルタイムでキャラクターの表情をコントロールすることは、多くのバーチャルYouTuberやストリーマーにとって非常に興味深いトピックです。この記事では、Style-Bert-VITS2で生成した音声を使い、VTube ...
AGI

Dockerを活用してLocal-Code-Interpreterを手軽に始めよう

OpenAIのChatGPTコードインタープリター(現在は高度なデータ分析として再命名されています)は、AIモデル内でPythonコードを実行する革命的な機能を提供します。しかし、この機能はオンラインのサンドボックス内でコードを実行するため...
AGI

OpenCodeInterpreter:データ収集用 Local-Code-Interpreter README【日本語版】

OpenAIのChatGPTコードインタープリター(高度なデータ分析)のローカル実装です。OpenCodeInterpreterのデータ収集用に調整されていますOpenCodeInterpreterリリース待ち。。。紹介OpenAIのコード...