Ubuntu 24.04で動画の文字起こし

ChatGPT o4 に、動画をアップロードして、文字起こしをしようとしたら

pythonで、行うようにと、ソースプログラムを表示してくれたのでやってみた

早速、Ubuntu 24.04のPCでやってみよう

まず、pythonなので、仮想空間を作る

python3 -V

Python 3.12.3

バージョンは 3.12.3

仮想空間を作るために

python3 -m venv voice

source voice/bin/activate
bash: voice/bin/activate: そのようなファイルやディレクトリはありません

メッセージをみたら、エラーを出していた

apt install python3.12-venv

インストールが必要

sudo apt install python3.12-venv

再度

python3 -m venv voice

source voice/bin/activate

こんどは、入れた

GPTが教えてくれた、コマンドで

pip install moviepy speechrecognition pydub
Collecting moviepy

で、必要なライブラリーをインストール

プログラムをmoji.pyで作っておいて

python3 moji.py

で、実行

エラーを表示、mp3は、だめで、wavとのこと

Audacityを使って、wavに変換

実行したら、時間がかかったが、画面に表示した

python3 moji.py > kekka.txt

で、ファイルに落ちた

案外精度はよさそうである

プログラムは、以下となっている

import speech_recognition as sr

recognizer = sr.Recognizer()
audio = sr.AudioFile(“extracted_audio.wav”)

with audio as source:
recognizer.adjust_for_ambient_noise(source)
audio_data = recognizer.record(source)

try:
text = recognizer.recognize_google(audio_data, language=’ja-JP’)
print(text)
except sr.UnknownValueError:
print(“音声が不明瞭で理解できませんでした。”)
except sr.RequestError as e:
print(f”リクエストに失敗しました; {e}”)

活用していってみよう