Google ColabとWhisperで無料で高品質な文字起こしを行う方法

はじめに

この記事では、Google ColabとWhisperというツールを使って、無料で高品質な文字起こし（音声からテキストへの変換）を行う方法をご紹介します。特に、コーディングが初めての方でも簡単にできるステップを解説します。

Google Colabとは

Google Colaboratory（通称：Google Colab）は、Googleが提供するクラウドベースのJupyterノートブック環境です。Jupyterノートブックは、コード、テキスト、画像などを1つの文書にまとめることができるツールで、特にデータ分析や機械学習などの分野でよく使用されます。

Google Colabの主な特徴：

無料で使える : 基本的な機能は無料で誰でも使うことができます。
GPUサポート : グラフィックプロセッシングユニット（GPU）を無料で使用でき、計算処理が高速化されます。
簡単に共有 : Googleドライブと連携しているため、他の人と簡単にノートブックを共有できます。
Pythonライブラリが豊富 : 多くのPythonライブラリがプリインストールされているため、すぐに作業を始めることができます。
インタラクティブ : コードを書いてすぐに実行し、結果を確認することができます。

基本的な使い方：

ノートブックを開く : Google Colabのウェブサイトにアクセスして、新しいノートブックを開くか、既存のノートブックを開きます。
セルにコードを書く : ノートブックはいくつかの「セル」と呼ばれる部分に分かれています。セルにはコードを書くことも、テキストを書くこともできます。
コードを実行 : コードを書いたら、そのセルを選択して実行します。実行した結果がセルの下に表示されます。
保存と共有 : 作成したノートブックはGoogleドライブに保存され、リンクを通じて他の人と簡単に共有できます。
GPUを使う : 特に計算が重い処理をする場合は、設定からGPUを有効にすることで計算速度を向上させることができます。

Google Colabは特にデータサイエンスや機械学習の初心者にとって、環境設定なしにすぐに始められる非常に便利なツールです。

Whisperとは

WhisperはOpenAIによって開発された音声認識モデルです。このモデルは特に「文字起こし」—つまり、音声をテキスト形式に変換する—に優れています。

Whisperの主な特徴：

高い精度 : 68万時間分の多言語音声データを用いて訓練されており、非常に高い精度で音声をテキストに変換できます。
多言語対応 : 日本語を含む多くの言語に対応しており、特に日本語の文字起こし精度も高いとされています。
モデルサイズ : 精度をさらに高めるために、いくつかの異なる「サイズ」のモデルが提供されています。
API対応 : Whisper APIを使用することで、自分自身のアプリケーションやサービスに組み込むことができます。

用途：

ニュース原稿の音声からテキストを生成
生活騒音がある環境でも効果的
ビジネスや研究での高精度な文字起こしが必要な場合

簡単に言えば、Whisperは音声をテキストに変換する高性能なツールです。日本語でも非常に高い精度で動作するため、日本の企業や研究者にも有用です

ステップ1: Google Colabのセットアップ

コード


from google.colab import drive
drive.mount('/content/drive')

解説

このコードはGoogle ColabでGoogle Driveをマウントするためのものです。

ステップ2: Whisperのインストール

コード


# 外部リンクはこの環境では動作しないため、コメントアウトします
!pip install git+https://github.com/openai/[Whisper](https://openai.com/research/whisper).git

解説

このコードでWhisperという音声認識ライブラリをインストールします。
!pip install コマンドでPythonパッケージをインストールすることができます。---

ステップ3: Whisperのセットアップ

コード


# [Whisper](https://openai.com/research/whisper)ライブラリをインポートしてモデルをロード
import Whisper
model = Whisper.load_model("large")

解説

import Whisper でWhisperライブラリをインポートします。
Whisper.load_model("large") で、"large"という名前のモデルをロードします。---

ステップ4: 音声ファイルのロード

コード


# 音声ファイルをロードしてテキストに変換
fileName = "/content/drive/MyDrive/Wis/2023-09-04 17-13-06.mp4"
lang = "ja"

解説

fileName には音声ファイルのパスを指定します。
lang = "ja" で言語を日本語に設定します。---

ステップ5: テキストの保存

コード


# テキストをファイルに保存
with open(f"{fileName}.txt", "w") as f:
    f.write(f"▼ Transcription of {fileName}\\n")

解説

with open(f"{fileName}.txt", "w") as f: で、テキストを保存する新しいファイルを作成します。
f.write(f"▼ Transcription of {fileName}\\n") で、音声ファイルから変換したテキストをファイルに書き込みます。---

この5ステップを経ることで、Google ColabとWhisperを使用して無料で高品質な文字起こしを行うことができます。初心者の方でも簡単に実行できると思いますので、ぜひ試してみてください。

配布ノートブック

Google Colab

解説動画

@maki.sunwood.ai.labs

この記事では、Google ColabとWhisperというツールを使って、無料で高品質な文字起こし（音声からテキストへの変換）を行う方法をご紹介します。特に、コーディングが初めての方でも簡単にできるステップを解説します。 Google Colabで実行できるノートブックはホームページから配布しています。 #文字起こし #Whisper #動画配信 #GoogleColab #AI #人工知能 #便利

♬ original sound - Maki@sunwood.ai.labs