kon×hatena

コンピュータビジョン・パターン認識の研究をしています。聴覚障害のこと、専門のことその他もろもろを投稿していきます。

学会での音声認識

はじめに

先日、仕事で某学会主催のワークショップに参加しました。最新技術動向の把握のためです。
これまでは学生だったので、大学に手話通訳や文字通訳の費用を負担してもらっていたのですが、企業となると「もうけ」を意識しないといけないため、そう簡単に負担をしてもらうことはできません。
そこで、「音声認識」を導入してワークショップに参加することにしました。
この記事はその防備録です。

やったこと①:運営委員会への問い合わせ

以前のエントリで書いたことを実施しました。
konnnnnok.hatenablog.com

学会に参加することになったら,まず,学会の運営に連絡します.
この連絡手段はまちまちで,申し込みフォームの備考欄に記載する場合もあれば,
運営に直接メールで連絡する場合もあります.
申し込みフォームの備考欄に記載する場合,運営も気づきづらいので,
メールでの連絡も行っておくことをおすすめします.

連絡の内容としては,次のようなものを毎回伝えています.

・じぶんは耳が聴こえないこと
・聴講(発表)時に,音声情報を文字通訳,あるいは手話通訳するように手配してもらうことは可能か
情報保障の手配は,学会が行うケースもあれば,自分で行うケースも有ります.
これは,学会の性質によります.
障害者支援技術を多く募っているような学会であれば,Webサイトに情報保障の案内が掲載されているケースも有ります.
幸い,私はこれまで自分で手配するケースはなく,全て学会の運営が用意してくれました.

今回は普段聴覚障害者が参加しない、ゴリゴリの技術寄りのワークショップだったため、「情報保障の用意はできない」との反応でした。
ただ、「きちんと聴講できるよう、できうる限りの配慮はしたい」との反応を頂くことができました。このおかげで、後述する配慮のお願いをしやすくなりました。


やったこと②:自前で情報保障を用意するときの料金調査

「情報保障の用意はできない」とのことなので、次に検討したのが「自前で情報保障の依頼をする」ことでした。
ただ、通常の通訳をお願いしようにも、ゴリゴリの専門的な内容のため、「きちんと通訳してもらえるか」という不安がつきまといます。
もし、専門的なところに通訳をお願いしようとすると、当然かなり高額です。以下のリンクは情報保障のプロ集団、「キャプショニングペガサス」のものです。
captioning.main.jp
料金を確認したところ、ワークショップ開催期間である2日間のあいだ、ずっと情報保障を依頼する場合は十万円をかるく超えることが判明しました。自分の発表ならまだしも、情報収集目的で参加する学会で、この金額を払うのは非常にコストパフォーマンスが悪いものです。
従って、料金を払って外部に情報保障を依頼することは諦めました。


やったこと③:音声認識の検討

上記のこともあり、最終的に音声認識を使おう、ということになりました。これは、「普段社内で利用しているから」という至極単純な理由からです。
音声認識を使うにあたり、実行委員会に依頼したのは以下の2点です。

  • 音声ラインの確保

当日はマイクから取得した音声をスピーカーで会場に流します。そこで、この音声ラインを分岐してもらうことにしました。
音声ラインはそのままPCに入力するため、「雑音が入りづらい」というメリットがあります。

  • 予稿集の事前入手

ワークショップの発表は専門用語のオンパレードのため、音声認識用辞書への単語登録が必要になります。そこで、予稿集から頻出単語の抽出を行い、辞書登録を行うことを考えました。
ただ、一般的には「発表当日まで予稿集の内容は公開しない」というところがほとんどです。そこで、「当日まで予稿集の内容は外部に漏らしません」という機密保持の書類を作成したうえで、予稿集を送ってもらいました。これにより、当日の音声認識の精度が若干向上しました。

やったこと④:サポートのお願い

これが一番重要なのですが、職場の先輩にサポートをお願いしました。
サポートにあたり、依頼したことは以下の2点です。

  • 音声認識の結果を見て、意味不明な所があれば補足して欲しい
  • 質疑応答の内容ははっきり明記して欲しい

なお、当日のサポート形式として、音声認識用のノートPCを用意し、音声認識ログを確認しながらメモ帳に補足事項を入力してもらう、というやり方で行いました。
このとき、ノートPCに付属しているキーボードを使っての入力となると私が画面を見辛くなる(横から覗き込む形になる)ため、外付けのキーボードとマウスを用意し、それを用いて入力していただきました。
専門知識を持った人にサポートしていただくことで、「専門知識を持たない手話通訳者による通訳」よりも深く理解できる、というメリットも有ります。

音声認識によるメリット

音声認識を導入したことによるメリットをいくつか挙げたいと思います。

  • メモ取りに集中することができるようになった

通常、手話通訳を依頼すると、どうしてもずっと通訳者を見ていなければならない、という問題があります。結果、スライドを見ることも難しく、またメモをとることもできません。予稿集を読んでじっと考えることもできません。手話通訳者も人間なので、「つまらない発表の時は聴かない」という選択も非常に取りづらい時があります。
しかし、今回のように音声認識を導入することで、PCの画面とメモの間で視線を動かす、といったことが非常にやりやすくなります。これはそのまま、「必要なときに話を聴いて(見て)、メモを取る」ことが可能になる、ということです。また、音声→文字に変換してくれるのは機械なので、心置きなく「話を聴かない」という選択肢も取れるようになります。

  • 話が早い人の発表内容も理解できる

「話が早くて全く聞き取れなかったので、音声認識の結果を見てようやく理解できた」
これはサポート頂いた先輩からのコメントです。
私自身は音声認識のログしか確認していなかったので気づかなかったのですが、「話が早い人」の説明内容をじっくり確認することができる、というメリットもあるようです。

おわりに

今回、「音声認識」を導入してワークショップに参加にしました。
私自身「音声認識」を利用しての参加は初めてであり不安ばかりだったのですが、おおむね満足いく情報を得ることができました。
ワークショップ終了後、実行委員にお礼のメールをお送りしたところ、

今回のケースで音声認識のノウハウを得ることができました。よければ来年も是非参加してください

とのコメントを頂くことができました。
今回の事例で「聴覚障害者が学会に参加する」ことの敷居が低くなったと思うと、感慨深いものがあります。
いろいろ試行錯誤しながらのやり方だったので、今後いくつか方法を試し、自分なりのやり方を確立させたいと思います。