日本音響学会誌第 74 巻 07 号 (2018) 1 1. はじめに 人工知能(AI)ブームが続いている。前回約 30 年前のブームを知っている世代は、いつまで 続くのか心配の向きもあるが、今回は自動運転、 金融・電子商取引、医療などの広範な社会基盤に 浸透しており、IoT やビッグデータと連携して 「第4次産業革命」 を起こしているということな ので、しばらく続くのであろう。 メディアで「人工知能」と呼ばれているものを 概観すると(多少ひいき目であるが) 、機械学習 しているものと、 音声で対話しているものが多い。 これら両者は、 音声認識の基盤と応用となってい る。著者は、音声認識自身は人工知能の範疇でな いと捉えているが、 音声認識は人工知能において 不可欠な一つとなっている。 今の人工知能ブームの最大の推進力となって いるのが、機械学習とりわけ深層学習である。実 際に、 深層学習は音声認識においても革新的な進 歩をもたらしたし、 深層学習のインパクトを示し た最初の一つが音声認識である。 著者は音声認識に関する教科書[1]や解説記事 [2][3]を数年おきに執筆しており、また本学会誌 でも約1年半前に小特集が組まれた[4-6]が、 深層 学習による展開はめまぐるしい 1 。特に最近、研 究の主流となっている End-to-End モデルは、著 者が音声認識研究を開始した 30 年以上前から用 いられている方法論・アーキテクチャを一新する * State of speech recognition technology.-Deep learning and end-to-end modeling-1 本解説記事の内容の多くは[4-6]と重なるが、 [4-6]ではそもそも音 響モデルと言語モデルが別々の記事になっており、両者を一体的に 扱う End-to-End モデルの話はほとんどない。 ところまで到っている。本稿では、これらの変遷 と「最先端」のモデルについて解説する。 2. 音声認識の方法論の変遷 音声認識研究の歴史は 60 年以上に渡る。京都 大学では 1960 年頃に単音節単位の認識を行う 「音声タイプ」が構築されている[7]。その後、 音声認識に有効な音響特徴量と、DP マッチング に代表される動的パターンのマッチング手法に 関する基礎的な研究が行われた。これらは、テン プレートベースの方法であり、 多数話者のバリエ ーションをモデル化するには不十分であった。 これに対して、 確率的なモデルを導入すること により解決が図られた。DP マッチングを拡張し た形で隠れマルコフモデル(HMM)が導入され、 その改良が様々に行われた。まず、HMM の各状 態 の 音 響 特 徴 量 の パ タ ー ン を 混 合 正 規 分 布 (GMM)でモデル化することが導入された。そし て、これを最尤推定する代わりに、識別誤りを最 小化するように学習(識別学習)する方法が検討 された。2000 年代に実用化された音声認識シス テムは、 GMM-HMM の識別学習に基づくもので ある。一方、言語モデルについては、単語の連接 規則 (文法) をオートマトンで記述したものから、 その遷移を確率的なものにし、 その確率をコーパ スから最尤推定する N-gram モデルに移行した。 その後、深層学習の導入が進められた。音声認 識にニューラルネットワークを用いることは 1990 年頃から研究されていたが、主流になった のは 2010 年以降である。 音響モデルについては、 GMM による確率計算をディープニューラルネ ットワーク(DNN)に置き換えた DNN-HMM が、 言語モデルについては、 リカレントニューラルネ ットワーク(RNN)を N-gram と併用するモデル が一般的になっている。最近は、RNN を発展さ 解説 音声認識技術の変遷と最先端 *-深層学習による End-to-End モデル-河原達也(京都大学) ** 43.72.Ne
CITATION STYLE
河原達也. (2018). 音声認識技術の変遷と最先端. 日本音響学会誌, 74(7), 381–386. Retrieved from https://www.jstage.jst.go.jp/article/jasj/74/7/74_381/_article/-char/ja
Mendeley helps you to discover research relevant for your work.