kon×hatena

コンピュータビジョン・パターン認識の研究をしています。聴覚障害のこと、専門のことその他もろもろを投稿していきます。

GoogleのAlphaGoまとめ

はじめに

以下のニュースが世間を騒がせています.
www3.nhk.or.jp

Googleの開発した囲碁AI「AlphaGo」がプロに勝利したというのです.
ただ,「勝った」ことばかりが持ち上げられており,詳細がどうにもつかめないので調べてみました.

ざっくり概要

ヨーロッパチャンピオン3度のプロ棋士 Fan Hui氏に5戦5勝.
この論文が本日付でNatureに掲載された.
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

技術的なこと

AlphaGoの論文はNatureに記載されているようですが,有料で簡単には読めません.
そこで,Googleのブログから詳細を掴んでみます.

Research Blog: AlphaGo: Mastering the ancient game of Go with Machine Learning


(追記)
このようなコメントを頂きました.ありがとうございます.

https://storage.googleapis.com/deepmind-data/assets/papers/deepmind-mastering-go.pdf
から論文が無料でダウンロードできるとComputer Go mailing list にありました。

ここから内容を確認できるようです.
(追記終わり)

これによると,ディープラーニングおよびモンテカルロ木探索,そして強化学習を組み合わせているようです.
このモンテカルロ木探索,あまり聞き慣れない単語ではありますが,囲碁AIのブレイクスルーとなった手法のようです.
なお,Facebookも1月の頭に囲碁AIを公開しており,こちらでもディープラーニングおよびモンテカルロ木探索を利用しています.
この2つの違いは,「強化学習」の有無でしょうか.

AlphaGoの実力はどれくらい?

囲碁の強さを表すelo ratingなる指標があります.これが非常にジャンプっぽく,わかりやすいです.
Go Ratings

このelo rating,Googleのブログでも紹介されており,それによると
http://3.bp.blogspot.com/-vK8GilvWdPU/Vqg8QhWTazI/AAAAAAAAA2g/OF2btDMTqNc/s1600/image00.png

  • AlphaGo :3200pt(プロ5段)#今回のAI
  • Fan Hui氏:2900pt(プロ2段)#ヨーロッパチャンピオンだが,中国基準では2段とのこと.
  • Crazy Stone :1900pt(アマ6段)#これまでで一番強力と言われた囲碁AI

となっており,これまでの囲碁AIがアマチュアの枠に留まっていたのを一気に飛び越えてしまった感じでしょうか.
なお,elo ratingにおける3200ptというのは,世界TOP200 程度のレベルのようです.

おわりに

AlphaGoの次回の対戦相手はelo rating 3515pt,世界5位のLee Sedol氏のようです.どうなるか注目です.
去年は将棋AIと将棋プロ棋士の戦いである電王戦に注目が集まりました.
これからは囲碁AIと囲碁プロ棋士の戦いに注目が集まりそうな予感です.

学会での音声認識

はじめに

先日、仕事で某学会主催のワークショップに参加しました。最新技術動向の把握のためです。
これまでは学生だったので、大学に手話通訳や文字通訳の費用を負担してもらっていたのですが、企業となると「もうけ」を意識しないといけないため、そう簡単に負担をしてもらうことはできません。
そこで、「音声認識」を導入してワークショップに参加することにしました。
この記事はその防備録です。

やったこと①:運営委員会への問い合わせ

以前のエントリで書いたことを実施しました。
konnnnnok.hatenablog.com

学会に参加することになったら,まず,学会の運営に連絡します.
この連絡手段はまちまちで,申し込みフォームの備考欄に記載する場合もあれば,
運営に直接メールで連絡する場合もあります.
申し込みフォームの備考欄に記載する場合,運営も気づきづらいので,
メールでの連絡も行っておくことをおすすめします.

連絡の内容としては,次のようなものを毎回伝えています.

・じぶんは耳が聴こえないこと
・聴講(発表)時に,音声情報を文字通訳,あるいは手話通訳するように手配してもらうことは可能か
情報保障の手配は,学会が行うケースもあれば,自分で行うケースも有ります.
これは,学会の性質によります.
障害者支援技術を多く募っているような学会であれば,Webサイトに情報保障の案内が掲載されているケースも有ります.
幸い,私はこれまで自分で手配するケースはなく,全て学会の運営が用意してくれました.

今回は普段聴覚障害者が参加しない、ゴリゴリの技術寄りのワークショップだったため、「情報保障の用意はできない」との反応でした。
ただ、「きちんと聴講できるよう、できうる限りの配慮はしたい」との反応を頂くことができました。このおかげで、後述する配慮のお願いをしやすくなりました。


やったこと②:自前で情報保障を用意するときの料金調査

「情報保障の用意はできない」とのことなので、次に検討したのが「自前で情報保障の依頼をする」ことでした。
ただ、通常の通訳をお願いしようにも、ゴリゴリの専門的な内容のため、「きちんと通訳してもらえるか」という不安がつきまといます。
もし、専門的なところに通訳をお願いしようとすると、当然かなり高額です。以下のリンクは情報保障のプロ集団、「キャプショニングペガサス」のものです。
captioning.main.jp
料金を確認したところ、ワークショップ開催期間である2日間のあいだ、ずっと情報保障を依頼する場合は十万円をかるく超えることが判明しました。自分の発表ならまだしも、情報収集目的で参加する学会で、この金額を払うのは非常にコストパフォーマンスが悪いものです。
従って、料金を払って外部に情報保障を依頼することは諦めました。


やったこと③:音声認識の検討

上記のこともあり、最終的に音声認識を使おう、ということになりました。これは、「普段社内で利用しているから」という至極単純な理由からです。
音声認識を使うにあたり、実行委員会に依頼したのは以下の2点です。

  • 音声ラインの確保

当日はマイクから取得した音声をスピーカーで会場に流します。そこで、この音声ラインを分岐してもらうことにしました。
音声ラインはそのままPCに入力するため、「雑音が入りづらい」というメリットがあります。

  • 予稿集の事前入手

ワークショップの発表は専門用語のオンパレードのため、音声認識用辞書への単語登録が必要になります。そこで、予稿集から頻出単語の抽出を行い、辞書登録を行うことを考えました。
ただ、一般的には「発表当日まで予稿集の内容は公開しない」というところがほとんどです。そこで、「当日まで予稿集の内容は外部に漏らしません」という機密保持の書類を作成したうえで、予稿集を送ってもらいました。これにより、当日の音声認識の精度が若干向上しました。

やったこと④:サポートのお願い

これが一番重要なのですが、職場の先輩にサポートをお願いしました。
サポートにあたり、依頼したことは以下の2点です。

  • 音声認識の結果を見て、意味不明な所があれば補足して欲しい
  • 質疑応答の内容ははっきり明記して欲しい

なお、当日のサポート形式として、音声認識用のノートPCを用意し、音声認識ログを確認しながらメモ帳に補足事項を入力してもらう、というやり方で行いました。
このとき、ノートPCに付属しているキーボードを使っての入力となると私が画面を見辛くなる(横から覗き込む形になる)ため、外付けのキーボードとマウスを用意し、それを用いて入力していただきました。
専門知識を持った人にサポートしていただくことで、「専門知識を持たない手話通訳者による通訳」よりも深く理解できる、というメリットも有ります。

音声認識によるメリット

音声認識を導入したことによるメリットをいくつか挙げたいと思います。

  • メモ取りに集中することができるようになった

通常、手話通訳を依頼すると、どうしてもずっと通訳者を見ていなければならない、という問題があります。結果、スライドを見ることも難しく、またメモをとることもできません。予稿集を読んでじっと考えることもできません。手話通訳者も人間なので、「つまらない発表の時は聴かない」という選択も非常に取りづらい時があります。
しかし、今回のように音声認識を導入することで、PCの画面とメモの間で視線を動かす、といったことが非常にやりやすくなります。これはそのまま、「必要なときに話を聴いて(見て)、メモを取る」ことが可能になる、ということです。また、音声→文字に変換してくれるのは機械なので、心置きなく「話を聴かない」という選択肢も取れるようになります。

  • 話が早い人の発表内容も理解できる

「話が早くて全く聞き取れなかったので、音声認識の結果を見てようやく理解できた」
これはサポート頂いた先輩からのコメントです。
私自身は音声認識のログしか確認していなかったので気づかなかったのですが、「話が早い人」の説明内容をじっくり確認することができる、というメリットもあるようです。

おわりに

今回、「音声認識」を導入してワークショップに参加にしました。
私自身「音声認識」を利用しての参加は初めてであり不安ばかりだったのですが、おおむね満足いく情報を得ることができました。
ワークショップ終了後、実行委員にお礼のメールをお送りしたところ、

今回のケースで音声認識のノウハウを得ることができました。よければ来年も是非参加してください

とのコメントを頂くことができました。
今回の事例で「聴覚障害者が学会に参加する」ことの敷居が低くなったと思うと、感慨深いものがあります。
いろいろ試行錯誤しながらのやり方だったので、今後いくつか方法を試し、自分なりのやり方を確立させたいと思います。

【アニメ版】ディープラーニングで○○したよまとめ

はじめに

GoogleからTensorFlowというライブラリが出たりと盛り上がっている機会学習界隈。
いろんな人がディープラーニングで○○した、というエントリを立てているので忘備録がてらまとめました。
アニメに偏っているのは気のせいでしょうか。

Deep Learningでラブライブ!キャラを識別する

christina.hatenablog.com
アニメ画像でディープラーニングを試したよ!第一弾(だと思う)。
アニメキャラを見分けるための特徴として、髪型・髪の色・目の大きさ等があるように見受けられました。
上記で作成した識別器の場合、髪型や瞳の状態に大きく影響されるようです。

ご注文はDeep Learningですか?

kivantium.hateblo.jp
ご注文はうさぎですか?」というアニメの映像に対し、ディープラーニングで顔検出を行った結果と三層パーセプトロンで顔検出を行った結果を比較しています。
三層パーセプトロンと比較し、ディープラーニングのほうが誤認識率は低下しているようですが、これがディープラーニングに起因するものか学習枚数の増加に起因するものかは不明です。

ディープラーニングでおそ松さんの六つ子は見分けられるのか

bohemia.hatenablog.com
bohemia.hatenablog.com

最近「おそ松さん」という「おそ松くん」が大人になったアニメが放映されているようです。知らなかった。
おそ松兄弟の見分け方は不明なのですが、それを機械にやらせよう、というアプローチです。
結果として、人間にも区別できない兄弟の顔を見分けることができるようになった、というのは称賛に値する結果だと思います。
個人的には、データセットの作成にかなり苦労した、という印象を受けました。ラベリングは自身で行ったのでしょうか。それはそれでスゴい。

【Deep Learning 画風変換】ポケモンを大神の世界に連れて行ってみた

eeveetuna.hatenablog.com
2種類の画像から「画像らしさ」「画風」を抽出し、合成するというものです。
この辺りの細かな技術はまだ理解していないのですが、DeepDreamに似たものがありますね。

おわりに

今回はアニメ系に傾いたエントリになってしまったので、次回はマジメな技術をまとめてみようと思います。

会社でのコミュニケーションあれこれ

はじめに

前回の投稿のあと、いくつか環境に変化がありました。

  • 社会人になりました
  • 東京に引っ越しました
  • 時間ができました

今年の3月に大学院を修了し、4月から会社で働いています。ニートにならなくてよかったです。
東京にある会社の寮に入りました。といっても23区民ではなく市民です。よく友人から「そこって本当に東京?」と言われます。
大学院時代は土日も研究室に行っていたのですが、社会人になってから土日は遊べるようになりました。そのかわりに夜遅くまでプログラミングをするような体力がなくなりました。軟弱と言われても仕方ありません。


社会人になり、いくつか思うことも出てきたので、そろそろ自分のことについてまとめようと思います(近日、母校で講演することになっているため、そのためのまとめも兼ねています)。
今回のメインテーマは「会社でのコミュニケーション」です。

現在のおしごと

IT関係の研究開発をしています。先行技術の論文を読んだり、実験のためのプログラムを組むのが主な仕事です。めちゃくちゃ会議が多いというわけではなく、個々でのやり取りががほとんどです。

仕事中のコミュニケーション

聴覚に障害があるため、仕事中の主なコミュニケーション手段は以下の4点です。

私自身、発音はできるものの、音声の聞き取りが得意ではないので、視覚的に確認できる手段でコミュニケーションをとるようにしています。
筆談やメールは他の聴覚障害者も普段から利用しているものなので、ここでは説明を割愛し、チャットや音声認識をどのように利用しているかを説明したいと思います。

チャット

チャットのクライアントアプリですが、いずれも基本的な機能は同じものだと思います。違いといえばスタンプや顔文字機能があったりそうでなかったり・・・という認識です。
チャット、メール、筆談の違いですが、私は以下のように考えています。
手軽さ:筆談>チャット>メール
情報量:メール<チャット<筆談

簡単な伝達的であれば筆談(チャットやメールでは書けないことを含む)を利用し、短い双方向的な対話的やり取りであればチャット、長い報告であればメール、という風に使い分けています。
特にチャットは気軽なお願い「今から会議なのですが○○をお借りしてもいいでしょうか」「いいよー」的なやり取りができるので重宝しています。
なお、筆談にはブギーボードを用いています。かきポンくんなんて分厚くて書きづらくて使っちゃいられません。
tamkaism.com

音声認識

会議だったり報告会だったり、1対1の対話ではない時に活用しています。
私はパソコンの音声認識ソフトウェアとBluetoothヘッドセットを組み合わせており、認識結果をプロジェクタでスクリーンに投影しています。これにより認識結果をその場の全員で共有し、認識しやすいような発音を心がけてもらうことができます。ただ、研究報告会や学会発表ではプロジェクタとスクリーンを独占するわけにもいかないので、手元のPCに音声認識結果を表示するようにしています。
もちろん、音声認識結果だけでは何を喋っているか把握することができないため、発表資料を同時に閲覧できるようにする(報告会であれば、報告内容をテキストに書いてもらい、スクリーン表示する。発表会であれば、スライドを表示する)といった工夫は必要です。これにより、発話内容の推測が容易になります。
音声認識の問題点として、「質疑応答」あるいは「議論」になると、発話内容を推測するような資料も何もないため、内容を全く把握できないことがあります。そのため、こういった場合は隣の人に文字化してもらうことで内容を理解しています。
会議や報告会のような場で、サポートをしてくれる人に対し「全部書いてくれませんか」とお願いするのは心苦しいかもしれませんが、「質疑応答だけでもお願いして構わないでしょうか」とお願いするのであれば、気軽にできるのではないのでしょうか。


おわりに

色々書いてきましたが、最も重要なことは「自分の障害を理解してもらう」ことだと思っています。障害があるからこそ、必要な場で必要な配慮をお願いできるような環境を整えることが重要になってきます。
そのためには、特定のコミュニケーション手段に頼らず、いくつもののコミュニケーション手段を組み合わせ、その場その場に適した方法でやり取りができるようになるのが重要だと思います。

Kinectを用いた手話→日本語辞典のすすめ(案)

はじめに

こないだ,某企画に参加した時,「聴覚障害者と健聴者をつなぐ技術を考えてみよう!」というのをやりました.
そこで,提案したのは「パターン認識を用いた手話辞典」というもの.
その概要と技術について書きます.基本的にメモ代わりです.かなり適当です.
誰かつくってください.
なお,手話表現にあたり,「非手指動作」(NMS:Non-Manual Signals)も重要になりますが,
ここでは単語の意味の確認に的を絞ることにし,対象に含めません.

概要

『手和(しゅわ)辞典アプリ』
日本語から手話を検索する「手話辞典」は存在よくあるんですが,
その一方で,手話から日本語を検索するような辞典は存在しません.

※似たものは存在しますが.
SLinto.com

現時点で,手話を記述するための文字は普及しておらず,紙の辞書を用いた手話単語の検索は難しいため,
動き,手形状,位置など複数の情報を用いて検索できるアプリケーションを考えます.

使用の流れ

  1. 手話で話している人を撮影し,発話シーン内の好きな部分を手動でトリミング.
  2. トリミングされたシーンを「検索対象手話」とし,辞典に入力.
  3. パターンマッチングを用い,類似度の高い手話単語を「いくつか」ユーザに表示.

キモは,「発話シーン内の好きな部分を手動でトリミング」というところ.
通常,発話シーン内から単語を自動で切り出すのは難しいのですが,ここはユーザにやってもらいます.
※ここで選択する単語は一つだけ.

また,現時点で完全な画像からの手話認識は不可能です.
しかし,今回は辞典なので,ユーザに候補を幾つか呈示することにします.
一般的な手話認識は,出力結果が一つだけである必要がありますが,
ここでは,出力結果が複数あっても構いません.検索結果に調べたい単語が出ていれば,OKとします.

技術


ここでは,今回のコアとなる,手話認識のための技術を紹介します.
今回の識別対象は,「手形状」「動き」「位置」とします.

手領域の位置検出

Kinectを代表とした距離センサを使用します.
今回はKinectを用いることを想定します.

KinectSDKから骨格情報を取ることができるので,そこから右手,左手の位置を取得し,手領域を抽出します.
http://www.i.ci.ritsumei.ac.jp/publication/2013/20130315__mori_cvim186.pdf

手形状の識別

ここでは,上で抽出した手領域から特徴を抽出し,識別器を使って識別を行います.
手話呈示中の手形状は,1単語で変化することはあまり無かったような気がします.
*1
そこで,回転不変性を持つSIFT(あるいはSURF)を用います.
Keypoint detector

つぎに,発話シーンは連続的な画像から形成されているため,カーネル直交相互部分空間法を用いて手形状の識別を行います.
部分空間は複数の特徴ベクトルから作成することができ,複数視点の画像を用いることで強力な識別性能を発揮します.

※手形状は複数存在するため,これらのパターンを予め学習用データに登録しておいたほうが良さそうです.
全部でいくつ存在するのかは不明ですが,HamNoSysを参考に定めます.

手位置の検出

顔検出器を用い,相対的な手の相対位置を検出します.
この検出結果を用い,顔の大きさを2×2セルとし,全体にセルを張ることにします.
手領域がこのセルのどの位置にあるかを面積計算によって決定し,手の位置とします.

f:id:konkonbook:20150225160029p:plain
Sign Language Recognition using Sub-Units より)

動きの識別

あまり手の動きを細かく取ってもきりがないので,上下左右×両手の8つに注目し,シンプルに動きを取ります.
これを特徴量とし,各フレーム間から抽出して得たベクトルを用いて,カーネル直交相互部分空間法による識別を行います.
f:id:konkonbook:20150225160346p:plain
Sign Language Recognition using Sub-Units より)

手話単語の決定

手形状の識別結果,手位置の検出結果,動きの識別結果を重ねあわせ,呈示された手話単語の候補を決定します.
今回は辞書として用いるので,ある程度高い類似度を得られた手話単語をユーザに呈示します.
ユーザは呈示結果をもとに,目的となる手話単語を探すことになります.

おわりに

忘備録的なカンジでまとめました.
細かいユーザインタフェースの工夫で何とかできそうな気はします.どうでしょうか.

*1:正確な情報ではないので,誤りがあれば教えてください

学会(会議)での情報保障

はじめに

しばらくぶりに書きます.
修論締切が近づき,だんだんと忙しくなってきています.
そんな中で,もうすぐ学会に参加することになっているので,
今までに参加した学会での情報保障*1のあれこれについて書こうと思います.

参加するときに行っていること

学会に参加することになったら,まず,学会の運営に連絡します.
この連絡手段はまちまちで,申し込みフォームの備考欄に記載する場合もあれば,
運営に直接メールで連絡する場合もあります.
申し込みフォームの備考欄に記載する場合,運営も気づきづらいので,
メールでの連絡も行っておくことをおすすめします.

連絡の内容としては,次のようなものを毎回伝えています.

・じぶんは耳が聴こえないこと
・聴講(発表)時に,音声情報を文字通訳,あるいは手話通訳するように手配してもらうことは可能か

情報保障の手配は,学会が行うケースもあれば,自分で行うケースも有ります.
これは,学会の性質によります.
障害者支援技術を多く募っているような学会であれば,Webサイトに情報保障の案内が掲載されているケースも有ります.
幸い,私はこれまで自分で手配するケースはなく,全て学会の運営が用意してくれました.

情報保障の種類について

発表者として学会に参加する場合は,「どのようにして発表するか」を考えなければいけません.
発表を手話で行う場合は,手話通訳者にその手話を読み取ってもらい,音声に通訳してもらうことになります.
逆に,音声で発表を行う場合は,発表時の手話通訳は不要になります.
その一方で,質疑応答時に,質問内容を聞き取れないことがあるため,それをいかにしてフォローするか,が重要になります.
フォロー方法も,「発表時に障害のことを伝え,質疑応答時に声を大きくしてもらうなどの配慮をしてもらう」「運営に予め連絡し,音声→手話/文字通訳をお願いする」といったものがあります.


私の場合は,個人的には,音声→文字通訳が合っているのですが,
文字通訳を利用できないケースも有るため,発表の形式によって,お願いする配慮を変えています.
周囲に人が多く,騒がしいポスターセッションやインタラクティブセッションでは,人の動きも激しく,
文字通訳はあまり適していません.そこで,移動しやすい手話通訳をお願いしています.
このとき,自分が発表者である場合は,手話通訳者が通訳しやすいように,
予め原稿や発表スライドなどを渡しておきます.その上で,当日,打ち合わせをしながら,
専門用語の表現や立ち位置などを決めていきます.

一方,一般講演の場合は,文字通訳をお願いしています.
これは,手話通訳者との距離が遠くなりがちで,手話を読み取りづらいこと,
また,手話通訳者が専門用語を通訳しきれないケースが多いためです.
結果として,質問内容を把握できず,適切な回答ができないこともままあります.
そのため,正確に聞いたままの情報を日本語として読み取ることが可能な文字通訳を利用しています.



おわりに

いくつかの学会に参加して,実感するのは,
「専門性を持った手話通訳者はまだ少ない」ということ.
現状,福祉制度もある程度進み,手話通訳の派遣をお願いしやすくなりました.
しかし,通訳対象として想定されているのは,病院や役所など,日常生活に関わるケースの通訳で,
学会や講演会など,専門性の高い場での通訳はあまり想定されていないように思えます.
今後,大学院や研究者になる聴覚障害者も増えてくるものと思われます.
そんな中で,重要になってくるのは,学問的な専門性の高い手話通訳者の存在です.
私も,何度か,工学の知識を持ったかたに手話通訳をしてもらう事がありましたが,
専門知識を有しているだけあって,非常にわかりやすくなっています.
今後,こういった専門性の高い手話通訳者を増やしていくことは,必要なことです.

なお,私は,国際会議への参加経験はありません.そのため,今回の記事は国内会議の経験談になります.
今後,国際会議に参加する事になった場合,
ASL(アメリカ手話)を利用するか,あるいは,ISL(国際手話)を用いるか,または英語を話すか…
様々な選択肢があるだけに,より悩むことになりそうです.

*1:情報保障=聴覚障害者が文字通訳・手話通訳などを通して,発話内容といった情報を得ること

最近の手話・指文字認識研究の動向

はじめに

こういうテーマで記事を書こうと思いついたのは,
TBS「未来の起源」で手話認識の研究が紹介されたことがきっかけ.
神奈川工科大学 情報工学科 ブログ: 院生がテレビ出演します


せっかくなので,「他の同分野の研究も知ってもらいたい」
という目論見のもと,国内の手話・指文字認識に関する研究を紹介したいと思います.

ここでは,あえて手話・指文字の説明はしません.
指文字の簡単な説明の記事を貼っておきます.

指文字ってなあに ?



手話者とのコミュニケーションを支援する手話認識システム

みずほ情報総研千葉大学の黒岩・堀内研究室の共同研究.
http://www.mizuho-ir.co.jp/publication/report/2014/pdf/mhir07_shuwa.pdf
http://www.mizuho-ir.co.jp/publication/navis/024/pdf/navis024_08.pdf


NHKで放送されたこともあり,かなり知名度の高いの研究です.
なんと,「Microsoft Innovation Award 2014」で優秀賞を獲得しています.
銀行窓口における手話者のやりとりを翻訳することで,円滑なコミュニケーションをはかることを目的としています.

ここでは,Kinectを用いて手話者の手首や肘の動きを読み取り,Hidden Markov Modelを用いて識別することで,その結果をリアルタイムにテキスト表示するようなものを作っています.
現時点では,まだまだ単語登録数も少ないようですが,今後は全国手話検定の1級の語彙数に相当する3000語まで増やしていくことを目指しているようです.

可視光カメラとカラー手袋を用いた手話認識

「はじめに」で紹介した,神奈川工科大学の手話認識の研究.
この研究のポイントは,「可視光カメラ」を使って手話認識を行うというところ.
神奈川工科大学 情報工学科 ブログ: ヒューマンインタフェースシンポジウム2014参加報告(学生投稿版)

従来研究では,Kinectを代表とした距離センサを用いて手話認識を行うものが多数です.
というのも,距離センサを用いると,照明条件の変動を受けにくく,どこでも同様の結果を得ることができるというメリットが有ります.
その一方で,まだ距離センサは安価に普及していないため,スマートフォンなどには組み込まれていない,という欠点もあります.
そこで,この研究は安価な可視光カメラでも手話認識を行うことができるよう,工夫を行っています.

この研究では,それぞれの指の色が異なるカラー手袋を装用し,照明条件に変動されないよう,色検出のしきい値クラスタリングにより決定しています.
その上で,検出色の重心移動をもとに,識別を実施しています.
現在はまだ認識率は高くないようですが,可視光カメラで実現できるというのは大変有意義な研究です.

指文字識別の研究

共同研究先(筑波大 CVLAB)の研究です.
http://www.cvlab.cs.tsukuba.ac.jp/index.php?plugin=attach&refer=Takabayashi&openfile=ViEW_paper.pdf

ここでは,Kinectと同様な距離センサを用い,指文字の認識を行っています.
この研究の肝は,カーネル直交相互部分空間法 (KOMSM)を利用することで,高精度・高速な指文字識別が可能という点.
KOMSMは複数の画像をセットとして扱うため,1 枚の画像のみを用いた識別よりも,変動に対しても性能が安定します.
そもそも,手は自分が止めて出しているつもりでも,じつのところは手が僅かに回転あるいは振動しているので,有効と言えます.

ここでは,静止指文字を対象にした論文を紹介しましたが,現在は,連続指文字の識別を行っているようです.

指文字練習システムの開発

自分で紹介するのもなんですが,私の行っている研究です.
(以下の論文は,昨年度卒業した先輩のもの)
http://www.tsukuba-tech.ac.jp/repo/dspace/bitstream/10460/1251/1/266.pdf


指文字は手話を学習する際のベース(基礎)となりうるのですが,手形状も複雑で,種類も多いため,一人で本を使って学習しようとしても,間違って覚えるケースが有ります.
そのため,手話・指文字のできる人がそばに居て,指導しながら身につけていくことが望ましいのですが,現実的には時間・場所の制約もありなかなか難しい,という状況です.

そこで,この研究では,指文字認識の技術を応用することで,学習者の指文字を読み取り,その正誤を判断する,というようなシステムを開発しています.
ここで,認識部に用いているのが,先ほど紹介した筑波大の指文字識別技術です.かなり高速に・正確に識別可能なので,すばやく正誤を判断することが可能です.


おわりに

今回は国内の研究を簡単に紹介しました.他にも,立命館
Interaction Lab.
など様々なところで手話識別の研究がなされています.
他にも何か面白そうな研究があれば,ぜひ教えてください.