音声処理 Whisper Medusaを試してみた:高速で正確な音声認識モデル 音声認識技術の進歩は目覚ましく、最近では精度と速度の両面で大きな改善が見られています。今回は、OpenAIのWhisperモデルをベースに、さらなる高速化を実現した「Whisper Medusa」を実際に試してみました。「Whisper-M... 2024.08.05 音声処理AI・機械学習
音声処理 【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding 要旨(Abstract)この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現(メルスペクトログラムなど)から音声を生成し、位相再構成モデルやボーコ... 2024.03.18 音声処理AI音楽生成
AIアシスタント OwlWhisper: 初心者向けのキャラクターエージェント はじめにOwlWhisperは、高速な音声認識ライブラリ「Faster Whisper」と、高品質な音声合成ライブラリ「Style-Bert-VITS2」を組み合わせたプロジェクトです。初心者でも簡単に音声認識と音声合成を体験できるように設... 2024.03.18 AIアシスタント音声処理チャットボット
Linux WSL+DockerでPulseAudioを使用して音を出す方法 Windows Subsystem for Linux (WSL)とDockerを使用して、Linux環境で音声アプリケーションを動作させる方法を紹介します。この記事では、PulseAudioを利用して音を出す手順について、初心者にも分かり... 2024.03.04 LinuxDocker音声処理WSL2
WSL2 WSLでPulseAudioを使用して音を出す方法 Windows Subsystem for Linux (WSL)は、Windows上でLinuxのバイナリ実行ファイルを直接実行できる強力な機能です。しかし、WSLでは音声の再生が直接サポートされていないため、外部ソフトウェアを使用してこ... 2024.03.04 WSL2チュートリアル音声処理
チュートリアル Deepgramでマイクからリアルタイム文字起こしをしてみた Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを... 2024.03.02 チュートリアルPython音声処理
音声処理 Faster WhisperをDockerでワンパン起動させてみた (CUDA12) Faster Whisperを使用して、手早くかつ効率的に音声認識を行う方法について、Dockerを使った手順を初心者にもわかりやすく解説します。Dockerを用いることで、環境依存を減らし、どのようなマシンでも同じ条件でFaster Wh... 2024.02.28 音声処理チュートリアルDocker
Python Faster WhisperのCTranslate2による高速な音声書き起こし【日本語版リポジトリ】 faster-whisper は、OpenAIのWhisperモデルをCTranslate2 を使って再実装したものです。CTranslate2は、Transformerモデルのための高速な推論エンジンです。この実装は、同じ精度でopena... 2024.02.28 Python音声認識音声処理オープンソース