Taro Yoshida BLOG吉田太郎のブログ
25
11月2024
音声認識AI
CATEGORY | ひとりごと
有料文字起こしソフトがバカになったお話しの続き。
昨晩自宅に帰ってプレミア12を見ながら、自力でどうにかならんかと試行錯誤した結果、何とかできるようになりました🙌
Googleが無料提供している「Google Colaborator(グーグルコラボレーター)」というソフトを開いて、音声認識AI「Whisper」をインストール。
大量の文字列が出てきますが当然意味は分からず、私は手順通り設定するのみです😅
インストールが終わったら、文字起こししたい音声データを指定フォルダに突っ込みコードを入力すると、再び謎の文字列が出てきますが同時に変換作業もしてくれます。
そして作業が完了。
画面の一番下に文字が起こされているのがお分かりでしょうか?
これが文字起こしをされたデータです。
ちなみに精度ですが、いつも使っている有料AIは50万文字の単語から文字起こしをするのに対して、無料AIは68万時間の音声データから文字起こしします。
実際に同じデータを有料無料で文字起こししましたが、ぶっちゃけ比較にならないレベルでした!
でもいいことばかりではなく弱点もあります。
それは文字起こしをする時間が20~30分くらいかかること。
でもこれについては、PCのバックグラウンドで放置作業させておけばOKなので殆ど問題なし。
ということで、今後はWhisperを使って文字起こしをしていきますが、加入した有料AIもうまく並行して使っていこうと思います👍