Python

チュートリアル

Deepgramでマイクからリアルタイム文字起こしをしてみた

Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを...
Python

Style-Bert-VITS2でずんだもんの声を学習させてみた(GoogleColabのノート付き)

近年、AI技術の進化は目覚ましく、その一環として音声合成技術も大きく前進しています。特に、話者の声質や話し方を模倣する技術は、エンターテイメントから教育まで幅広い分野での応用が期待されています。この記事では、Style-Bert-VITS2...
Python

OpenCodeInterpreterのデモを触ってみた

OpenCodeInterpreterは、開発者やプログラミング愛好家の間で注目を集めています。その公式デモを体験し、その機能と制約について深堀りしてみました。この記事では、m-a-p/OpenCodeInterpreter-DS-6.7B...
Python

【日本語訳】OpenCodeInterpreter: コード生成、実行、および改善の統合

OpenCodeInterpreter: コード生成、実行、および改善の統合 | こちらの記事もおすすめ🌟 近日中の新機能💡 OpenCodeInterpreter-SC2シリーズモデル(StarCoder2ベース)のオープンソ...
Python

Faster WhisperのCTranslate2による高速な音声書き起こし【日本語版リポジトリ】

faster-whisper は、OpenAIのWhisperモデルをCTranslate2 を使って再実装したものです。CTranslate2は、Transformerモデルのための高速な推論エンジンです。この実装は、同じ精度でopena...
Python

Style-Bert-VITS2で生成した音声をVTube StudioとPython連携して表情を制御してみた

最新技術を駆使して、リアルタイムでキャラクターの表情をコントロールすることは、多くのバーチャルYouTuberやストリーマーにとって非常に興味深いトピックです。この記事では、Style-Bert-VITS2で生成した音声を使い、VTube ...
データ収集

OpenCodeInterpreter:データ収集用 Local-Code-Interpreter README【日本語版】

OpenAIのChatGPTコードインタープリター(高度なデータ分析)のローカル実装です。OpenCodeInterpreterのデータ収集用に調整されていますOpenCodeInterpreterリリース待ち。。。紹介OpenAIのコード...
チュートリアル

VTube StudioとPython連携してモーション発動させてみた

バーチャルYouTuber(VTuber)の世界では、配信や動画の中でキャラクターを動かすために様々な技術が用いられています。その中でも、VTube Studioはリアルタイムでのアバター制御に特化したアプリケーションとして広く利用されてい...
AI・機械学習

ローカル画像でGemini Pro APIをOpenAI APIフォーマットで試してみた【Gemini-OpenAI-Proxy】

今回は、Gemini-OpenAI-Proxy を使用して、ローカルに保存された画像を Gemini Pro API に OpenAI API フォーマットで送信し、画像認識のデモを行います。このプロセスは、初心者でも理解しやすいように、ス...
チュートリアル

OpenAI Python APIライブラリでGemini Proを呼び出してみた【Gemini-OpenAI-Proxy】

OpenAIのPython APIライブラリを使用して、Gemini APIを呼び出す過程は、初心者にとっても分かりやすく、かつ実践的な学びを提供します。この記事では、具体的なコードブロックを使用して、その手順を詳しく解説していきます。Py...