ITmediaの、「ITmediaニュース:教師の声をリアルタイムに文字変換 聴覚障害者の学習を支援」という記事によると、長野大学がIBMと協力して、聴覚障害のある方への授業支援プロジェクトを行うそうです。
IBMが開発した、音声をリアルタイムに読み取り、識別、テキストに変換するシステムを使用して、教授の話した内容を字幕としてスクリーンに映し出す形になるとのこと。
音声OCRといった感じでしょうか。
OCRが、Optical Character Recognitionなので、Voice Character Recognition?(何か違う気がする) ひとまず精度が気になるところですが、asahi.comの「asahi.com: 大学の講義、すぐ字幕に 日本IBM 」という記事によると、認識率は8~9割と、かなり高精度のようです。
かなり実用的なのでは?
私としては、今後、耳が悪い方々だけでなく、もっと広い用途にこの技術を使ってもらいたいです。
ふと思ったのは、著作権的に微妙なのかもしれませんが、とりあえず、TVのニュースやワイドショーの内容を全てテキストにして、どこかにまとめたいです。
喋ってしまったことは、文字にしない限りすぐにどこかに消えてしまいますし、覚え違いなどもあります。
再放送も無いし。
その為、TVは、画面の印象だけで視聴者をリードしてしまいがちなので、内容の公正な判断・検証のためにも、是非文字ライブラリとして各コメンテータなどの話した内容を記録して欲しいです。
#「記憶にございません」なんていう事態も避けられると思いますし。
しかし、嫌なこともあって、例えば街角録音されて、そこでのプライベートな会話が文字になって出てきたら、これは嫌でしょう。
きっちり公的(政府云々とかそういうことではなく、パブリックに)な範囲でのみ使いたい所です。
プライベートなど、あまりパブリックでない空間で使われるというのは、マズイ。
そういう意味で、扱いの難しい技術でもありそうです。
#そこまで識別力がつくのにはまだまだ時間がかかりそうですが。
しかし、これを使うとなると長野大学の教授も「あーー、えーー」とか、そういう場つなぎができなくなりそうです。
結構、そういう「意味は無いけど、声は出してる」状況って少なくないと思いますし。
Discussion about this post