動画内の音声が検索可能に!DeepGram が提供する音声認識AI

UX MILK編集部

モノづくりのヒントになるような記事をお届けします。

独自のAIで音声内のキーワードを検索できる「DeepGram」が登場しました。

deepgram_01

DeepGramは動画やオーディオ内の会話をAIによって認識し、音声による検索や整理を可能にしたサービスです。オーディオを高度な音声認識によってテキスト化し、検索する仕組みになっています。

主な用途としてはコールセンターの記録やその他音声を扱うアーカイブの整理や、動画編集における素材の仕分け補助などを想定しています。

DeepGramを使ってみる

動画ファイルを登録する

DeepGramにサインインすると、まず「ファイルをアップロードしよう!」と促されます。

deepgram_03

アップロードせずとも、URLからでも登録できますので、今回は試しにAppleの新作発表会であるWWDCのプレゼンテーション動画のダイジェストをアップロードしてみます。
※日本語の動画も試してみましたが、うまくいきませんでしたので、英語の動画で進めていきます。

動画をアップロードすると、しばらくDeepGram側でテキスト起こしをしているのか、ステータスが「Indexing」になります。おそらく裏側では音声をテキスト化して、検索するためのインデックスをしているようです。ステータスが「done」になれば終わりです。

deepgram_05

音声検索する

インデックス作業が終わると動画のページに飛べるようになります。黒い動画プレイヤーのようなものがインターフェースになります。

deepgram_06

右上に白いテキストフィールドがありますが、ここに検索ワードを入れます。

たとえば、このプレゼンテーションではどの程度「iPhone」の話をしているのか、などが検索できるのでやってみると、タイムライン上に赤いインジケーターがいくつか表示され、テキストフィールドの下にも検索結果の個数と信頼度(confidence)が表示されます。

「prev」「next」でマーカー間の移動ができ、再生された音声にはちゃんと「iPhone」という単語が入っているのが確認できました。

デモ(埋め込んでみました)

アップロードしたファイルは管理画面でも見れますが、そのまま他サイトに埋め込むこともできます。下記が今回使った動画です。

試しに右上のテキストフィールドにワードを入れて試してみてください。今回の場合はAppleの製品発表ですので、下記のようなワードで試すと良いです。

「iPhone」 「Mac」 「Apple Pay」 「Siri」

なかなかの精度で検索できているのが確認できると思います。「あの話は動画のどのへんでしていたかな?」といった場合など、特定の議題で動画内を検索したいときなどは便利そうです。

まとめ

現状日本語は非対応となりますが、DeepGramは動画内の文脈を理解し、検索ができるようになる未来を感じさせるサービスとなっています。現在も既にコールセンターサービスTwilioと連携しているように、大量の音声アーカイブを持つサービスとの相性も良さそうです。

ユーザー登録すると、開発者向けのAPIも公開されているので、興味ある方は覗いてみてください。