BLOGAbout my work
and what I felt daily life

Taro Yoshida BLOG吉田太郎のブログ

25

11月2024

音声認識AI

CATEGORY |  ひとりごと

有料文字起こしソフトがバカになったお話しの続き。

昨晩自宅に帰ってプレミア12を見ながら、自力でどうにかならんかと試行錯誤した結果、何とかできるようになりました🙌

 

Googleが無料提供している「Google Colaborator(グーグルコラボレーター)」というソフトを開いて、音声認識AI「Whisper」をインストール。

大量の文字列が出てきますが当然意味は分からず、私は手順通り設定するのみです😅

 

インストールが終わったら、文字起こししたい音声データを指定フォルダに突っ込みコードを入力すると、再び謎の文字列が出てきますが同時に変換作業もしてくれます。

そして作業が完了。

画面の一番下に文字が起こされているのがお分かりでしょうか?

これが文字起こしをされたデータです。

 

ちなみに精度ですが、いつも使っている有料AIは50万文字の単語から文字起こしをするのに対して、無料AIは68万時間の音声データから文字起こしします。

実際に同じデータを有料無料で文字起こししましたが、ぶっちゃけ比較にならないレベルでした!

 

でもいいことばかりではなく弱点もあります。

それは文字起こしをする時間が20~30分くらいかかること。

でもこれについては、PCのバックグラウンドで放置作業させておけばOKなので殆ど問題なし。

 

ということで、今後はWhisperを使って文字起こしをしていきますが、加入した有料AIもうまく並行して使っていこうと思います👍

吉田太郎のブログ