元公務員フリーランスのレイです。
当サイトをご覧いただきありがとうございます。
文字起こしって、単純だけど時間がかかる作業ですよね…!
筆者は、フリーランスのライターとして、日々インタビュー音源の文字起こしを行っています。
この記事では、試行錯誤してたどり着いた、効率的な文字起こしの方法を紹介します!
【文字起こし方法①】Googleドキュメントを活用:音声データを自動認識
<デモ動画>
※音声が流れますので、ご注意ください。
まず、Googleドキュメントの音声入力機能を使った文字起こし方法をご紹介します。
音声入力機能はWordにもありますが、Googleドキュメントの方が格段に精度が高いようです。
※筆者しらべ
音声入力に録音などのデータを使う場合、データの音声を認識させるための事前準備を行う必要があります。
考えられる方法は、「PC標準の機能を使う」「外部のソフトウェア(Virtual Audio Cableなど)を使う」「スピーカーで大音量で再生する」など。
ここでは、PC(Windows)標準の機能を使って音声データを認識させる方法を解説します。
(解説が不要な方は、読み飛ばしてください。)
↓↓事前準備の解説ここから↓↓
①「サウンド」の設定を開き、「ステレオミキサー」にカーソルを合わせて右クリック。
②「有効」をクリック。
③「ステレオミキサー」に緑色のチェックマークがついたら、準備完了です。
※PCの環境によっては、ステレオミキサーが表示されない場合もあるようです。
その場合は、外部のソフトウェア(Virtual Audio Cableなど)を使うなど別の方法をご検討ください。
↑↑事前準備の解説ここまで↑↑
音声データを認識させる準備が整ったら、Googleドキュメントに音声入力をしていきます。
【Googleドキュメントに音声データを認識させて文字起こしを行う手順】
- Googleドキュメント「ツール」タブの「音声入力」をクリックし、スピーカーのアイコンを表示させる。
- 音楽再生ソフトなどで開いた、音声データの再生ボタンを押す。
- Googleドキュメント上でスピーカーのアイコンをクリックし、音声入力を開始。
メリット・デメリット
この方法の場合、普段使っているツールだけで自動で文字起こしを行うことができます。
一方でデメリットも少なからずあります。
まず、録音の品質が悪く、音声入力がうまくいかないと、途中で文字起こしが止まってしまいます。
また、誰も話していない空白の時間が続いた場合も、文字起こしが止まります。
更に、音源の長さと文字起こしの長さが比例する(音源が1時間なら文字起こしにも1時間かかる)ため、長い音源の文字起こしにはあまり適さないかなと思います。
この方法がおすすめのケース
・音声データが聞き取りやすく明瞭である(例:講演、スピーチなど)
・文字起こしをする音源の長さが、比較的短い(~30分程度)
・文字起こしする時間に余裕がある
・後で聞き返す必要がない
・会社などの都合上、【文字起こし方法③】のアプリを使うことができない
【文字起こし方法②】Googleドキュメントを活用:直接音声入力する
Googleドキュメントを活用した文字起こしには、直接音声を入力する方法もあります。
<デモ動画>
※音声が流れますので、ご注意ください。
「直接音声を入力する」とは、つまりマイクに向かって自分が直接声を吹き込むということです。
例えば、「スマートフォンとイヤホンを使って音声データを聞きながら、復唱してPCに音声入力をする」といった形です。
メリット・デメリット
【文字起こし方法①】と比べて、録音の品質にかかわらず高い精度で文字起こしをすることができます。
デメリットは、自分で話し続けるというアナログな作業であること。
音声データの尺が長い場合は、かなり疲れます(その分、口周りの筋力トレーニング効果が期待できます(苦笑))。
また、聞きながら自分で発声すること自体が、慣れるまではやりにくいかもしれません。
ちなみに、筆者が試したところ、Googleドキュメントの音声入力の精度は、PC>スマートフォンでした。
私のおすすめは、「PCで音声を聞きながらスマートフォンに入力する」方法です♪
この方法がおすすめのケース
・音声データの品質が高くないor複数の人の音声が含まれている
・文字起こしをする音源の長さが、比較的短い(~30分程度)★
・文字起こしする時間に余裕がある★
・後で聞き返す必要がない★
・会社などの都合上、【文字起こし方法③】のアプリを使うことができない★
※★は【文字起こし方法①】と共通
【文字起こし方法③】文字起こしアプリ「Vrew」を活用
「Vrew(ブリュー)」とは、人工知能(AI)を活用した動画編集プログラムです。
動画の音声をAIが認識し、自動でテキストに変換してテロップをつけてくれます!
見出しにはわかりやすく「文字起こしアプリ」と記載しましたが、正確には動画にテロップをつける機能を文字起こしツールとして活用できるというものです。
特に、動画編集者やライターなど文字起こしをする機会が多い職業では、広く愛用されている有名なアプリケーションです。
2021年7月現在では、以下の環境で使うことができます(筆者調べ)。
・iOS
・iPadOS
・Android
・Webアプリケーション
・ブラウザ(体験版)
使い方はこの記事では解説しません。
いろいろなサイトで詳しく解説されているので、興味のある方は検索してみてください。
メリット・デメリット
【文字起こし方法①②】のGoogleドキュメントを使った方法との最大の違いは、ズバリ文字起こしの速さ!
例えば1時間の長さの音源でも、わずか数十秒~数分で文字起こしが行われます。
また、文字起こしされたテキストと音声データがリンクしているので、音声データを再生しながら文字起こしの内容を確認することができることも、①②にはない魅力です。
デメリットは…特にないと思います。
本当に便利で使いやすい、神アプリです!
デメリットと言うほどではありませんが、Vrewを使うためには会員登録(無料)が必要です。
とても便利なアプリだけど、機密保持の観点から会社などで利用できない場合もあるんじゃないかな。
音声データ自体をアプリ上で記録することになるから、機密性の高いデータは使いにくいかもね…。。
※Googleドキュメントも外部のアプリケーションではありますが、Vrewとは違って、音声データ自体を記録・保持するわけではありません。
この方法がおすすめのケース
・音声データの品質が高くないor複数の人の音声が含まれている
・短時間で文字起こしをしたい
・後で聞き返す可能性がある
・会社などでアプリを使うことが禁止されていない
筆者の文字起こし方法(実例・小ワザを紹介)
これまで3つの文字起こし方法を紹介してきましたが、いずれの方法でも一字一句完璧に文字起こしをすることは難しいです。
なので、それぞれの方法で文字起こしをしたデータを、手動で修正する必要があります。
私は、基本的には③のVrewを使い、AIが起こした文字データを手動で修正しています。
参考:筆者が文字起こしをする前提条件
- 文字起こしの対象は、インタビューの録音。
複数人の声が含まれるため、音声認識の難易度は高め。→①は× - 音声データの長さは30分~1時間 →①②は△
- 専門用語などの聞き間違いがないか、後から確認が必要な場合がある。→①②は△
VrewにはPC版やスマートフォン版もありますが、iPad版のアプリを使っています!
実際の文字起こしの手順
私が行っている文字起こしの、実際の流れを紹介します!
- Vrewでの作業①Vrewに音声データを読み込ませる
②AIが音声を認識し、テキストを作成
③「ジェットカット」機能を使い、音声の空白部分を削除
④テキスト全体をコピー - 文書作成ソフトでの作業⑤文書作成ソフト(Word、Googleドキュメントなど)にペースト
⑥置換機能を使って、口語表現や誤入力などをできる限り置き換え(例:「っていう」→「という」、「授業」→「事業」など)
- Vrew・文書作成ソフト両方での作業⑦Vrew上で再生した音声を聞きながら、文書作成ソフト上のテキストを修正
この⑥の修正が、なかなか骨の折れる作業なんですよね…。
音声を聞いては止めて、少し戻してまた再生して…を繰り返すので、時間がかかります。
以前は、再生・停止するたびに、イヤホンのボタンを押していました…。
キーボードとイヤホンを手が行き来するから、かなりタイムロスになるよね。
そこで!小さめのワイヤレスキーボードを導入しました!!
iPad操作用として活用してみたところ、大幅に作業が効率化しました。
言葉では説明しにくいので、動画を載せます↓
こんな感じで、iPad(Vrew)の音声再生・停止を小指だけで行っています。
ちょっとしたことですが、私はこれでかなり時短になりました!
小指はけっこう疲れますが(笑)。すごくおすすめの方法です。
キーボードはどれでも良いと思いますが、筆者が愛用しているのはiCleverのモバイルキーボードです。
小さくて軽い&折りたためるので、外出時も携行しやすく便利。
(上の動画でも、使っていない手前側は折りたたんでいます。)
PCやスマートフォンにも接続できます。
3台までデバイスを登録できるので、複数デバイス間でも使いやすいですよ。
まとめ:アプリを使える場合は、【文字起こし方法③】Vrewがおすすめ
GoogleドキュメントとVrewを活用した、3つの文字起こし方法をご紹介しました。
私の場合、Vrewの存在を知ってからは、ほとんど③の方法で文字起こしをしています。
音声データの品質が悪い場合は、②を使うことも時々あります。
いずれの方法も実践した筆者としては、
- アプリを自由に使える環境にある(会社などで禁止されていない)場合→③
- アプリを自由に使えない場合→①または②
をおすすめします!
ちなみに、前職の公務員時代には、②の方法(※)で文字起こしを行い、Word形式で出力して仕事用PCに送っていました。
※仕事用PCで音源再生・個人用スマホで音声入力
機密情報が含まれていない音声データ(イベントでのスピーチや講演など)の場合は、公務員でも使いやすいね。
この記事が、どなたかの参考になれば幸いです。
最後まで読んでいただき、ありがとうございました!