Copyright (c) 2025 led-mirage
Whisper Local Transcriberは、音声または動画ファイルの音声をテキスト化する便利なツールです。ローカルPCで動作するOpenAI Whisperを使用して高精度の音声認識を行い、結果をテキストファイルに出力します。
会議の録音など長時間の音声データをテキストとして保存したいときに便利です。このツールで音声をテキスト化した後で、出力されたテキストをAIに要約してもらうことで、簡単に議事録などを作成できます。
高性能なハードウェアをお持ちでない場合や、PC負荷を避けたい方は、OpenAIのAPIを利用する Whisper Auto Transcriber をご利用ください(OpenAI APIの利用登録と利用料金が別途必要です)。
- ローカル処理: すべての処理がお使いのPCで完結するため、セキュリティが高く、コストも電気代だけで済みます。
- 多様なファイル形式: mp3, m4a, mp4, avi, mov, mkvなど一般的な音声・動画形式に対応しています。
- 動画ファイル対応: 動画ファイルは自動的にffmpegを使って音声に変換されるので、追加作業は不要です。
- 整理された出力: 変換されたテキストは
output
ディレクトリに保存され、簡単に見つけることができます。
このアプリケーションはOpenAIのWhisperモデルを使用した音声認識を行うため、PyTorchが必要です。
- CPU版:
openai-whisper
パッケージをインストールする際に自動的に導入されるため、特別な操作は不要です。 - GPU版: 処理を高速化したい場合は、CUDA Toolkitと互換性のあるGPU版PyTorchをインストールする必要があります(詳細は後述)。
Whisperは計算負荷の高いモデルです。長時間の録音を処理する場合、GPU版を利用することで処理時間を大幅に短縮できます(GPUの性能に依存します)。以下は実際のテスト結果です。
5分間の音声データの変換時間(turboモデルを使用):
PyTorch | ハードウェア | 処理時間 |
---|---|---|
GPU版 | NVIDIA GeForce GTX 1660 SUPER | 1分34秒 |
CPU版 | Intel Core i5 12600K | 1分53秒 |
GPU版PyTorchを使用するには、NVIDIA製GPUと、NVIDIA CUDA Toolkitが必要です。
nvcc --version
上記コマンドを実行して情報が表示されれば、CUDAはインストール済みです。
インストール済みの場合は次のように表示されます:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Fri_Nov__3_17:51:05_Pacific_Daylight_Time_2023
Cuda compilation tools, release 12.3, V12.3.103
Build cuda_12.3.r12.3/compiler.33492891_0
この例ではCUDA 12.3がインストールされていることが分かります。
NVIDIA GPUをお持ちでも、上記コマンドでエラーが出る場合はCUDA Toolkitをインストールする必要があります:
- NVIDIA CUDA Toolkit公式サイトからダウンロード
- お使いのOSやアーキテクチャに適合するバージョンを選択してインストール
- インストール後、システムを再起動
このアプリケーションでは、音声・動画ファイルの処理にFFmpegが必要です。
Windows:
- FFmpeg公式ダウンロードページからWindows用のビルドをダウンロード
- ダウンロードしたアーカイブを展開し、任意のフォルダに配置
- 展開したフォルダ内の
bin
ディレクトリをシステム環境変数のPATHに追加 - コマンドプロンプトを再起動し、
ffmpeg -version
で正常にインストールされたか確認
💡 どれをダウンロードすればいいのか迷ったら: Windows builds by BtbN をクリックして、Assetsの中からffmpeg-n7.1-latest-win64-lgpl-7.1.zip
をダウンロードすればOKです(7.1の部分はバージョン番号)。
macOS (Homebrewを使用):
brew install ffmpeg
Ubuntu/Debian:
sudo apt update
sudo apt install ffmpeg
以下のコマンドでFFmpegが正常にインストールされているか確認できます:
ffmpeg -version
このアプリケーションを実行するには、Python 3.8以上が必要です。
- 最低要件: Python 3.8
- 動作確認済み: Python 3.12.0
注意: Python 3.12.0で動作確認していますが、Python 3.8以上であれば基本的に動作します。ただし、最新の機能や修正を利用するには最新のPythonバージョンを使用することをお勧めします。
- GitHubからソースを取得します:
git clone https://github.com/led-mirage/whisper-local-transcriber.git
- プロジェクト用ディレクトリに移動します。
cd whisper-local-transcriber
- 仮想環境を作成し、アクティベートします(推奨):
# 仮想環境の作成 python -m venv venv # 仮想環境の有効化 # Windows venv\Scripts\activate # macOS/Linux source venv/bin/activate
- 必要なパッケージをインストールします:
pip3 install -r requirements.txt
- ご使用の環境にあったPyTorchをインストールします:
# PyTorch公式サイト(https://pytorch.org/get-started/locally/)で # 自分の環境に合ったコマンドを確認してください # 例: Windows、Pip、Python、CUDA 12.1の場合のコマンド pip3 install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121 # CPUを使用する場合は、Whisperにバンドルされているためインストールの必要はありません
環境に合わせたPyTorchインストールコマンドの取得方法:
- PyTorch公式インストールページにアクセス
- ご使用の環境に合わせて以下の選択肢から適切なものを選びます:
- PyTorch Build (安定版推奨)
- お使いのOS
- パッケージマネージャー (通常はPip)
- 言語 (Python)
- CUDA バージョン (GPUを使用する場合、互換性のあるバージョン)
- ※互換性のあるCUDAバージョンが見つからない場合はprevious versionsから探してください
- サイトが自動生成するインストールコマンドをコピーして使用します
注意: 必ず自分の環境に合ったコマンドを使用してください。GPUを搭載したマシンでも、適切なCUDAバージョンを選択しないと正常に動作しない場合があります。
- 起動します:
python src/main.py
- テキスト化する音声または動画ファイルのパスを入力してEnterキーを押します:
変換元のファイルのパスを入力してください: c:\temp\test.mp3
- 出力:
結果はoutput
ディレクトリ(自動作成)内にテキストファイルとして出力されます。
ファイル名は[元のファイル名(拡張子を除く)].txt
になります。
アプリケーションの設定はsettings.ini
ファイルに書かれています。
- audio_segment_time: 音声を分割する単位を秒単位で指定します。デフォルトは300秒です。
-
model: Whisperで使用するモデルの種類を指定します。オプションは、
tiny
,base
,small
,medium
,large
,turbo
の中から選択できます。turbo
はLarge
モデルの最適化バージョンで、処理速度と精度のバランスがとれたモデルです。また、精度が高いほどモデルサイズが大きくなり初回ロード時間が長くなります。詳しくはWhisperプロジェクトのReadmeをご参照ください。 -
prompt: 変換の際の指示をテキストとして指定します。Whisperの場合、プロンプトの意味が解釈されるわけではないので、出力したいテキストの見本となるような文章を記述します。
-
newline_after_segment: セグメントごとの出力時に改行を挿入するためのフラグです。
True
に設定すると、各セグメントの出力後に改行が追加されます。 -
verbose: Whisperの処理中に詳細なログを出力するかどうかを設定します。
True
に設定すると、処理状況が表示されます。
ホームページ: https://github.com/openai/whisper
ライセンス: MIT License
ホームページ: https://pytorch.org/
ライセンス: BSD-3-Clause License
ホームページ: https://ffmpeg.org/
ライセンス: GNU Lesser General Public License (LGPL) v2.1
ホームページ: https://developer.nvidia.com/cuda-toolkit
ライセンス: NVIDIA CUDA Toolkit License Agreement
© 2025 led-mirage
本アプリケーションは MITライセンス の下で公開されています。詳細については、プロジェクトに含まれる LICENSE ファイルを参照してください。
- ファーストリリース