音声認識技術の変遷と最先端

達也 河原

Journal Article

音声認識技術の変遷と最先端

河原達

日本音響学会誌 (2018) 74(7) 381-386

N/ACitations

18Readers

Abstract

日本音響学会誌第 74 巻 07 号 (2018) 1 1. はじめに人工知能（AI）ブームが続いている。前回約 30 年前のブームを知っている世代は、いつまで続くのか心配の向きもあるが、今回は自動運転、金融・電子商取引、医療などの広範な社会基盤に浸透しており、IoT やビッグデータと連携して「第４次産業革命」を起こしているということなので、しばらく続くのであろう。メディアで「人工知能」と呼ばれているものを概観すると（多少ひいき目であるが）、機械学習しているものと、音声で対話しているものが多い。これら両者は、音声認識の基盤と応用となっている。著者は、音声認識自身は人工知能の範疇でないと捉えているが、音声認識は人工知能において不可欠な一つとなっている。今の人工知能ブームの最大の推進力となっているのが、機械学習とりわけ深層学習である。実際に、深層学習は音声認識においても革新的な進歩をもたらしたし、深層学習のインパクトを示した最初の一つが音声認識である。著者は音声認識に関する教科書[1]や解説記事 [2][3]を数年おきに執筆しており、また本学会誌でも約１年半前に小特集が組まれた[4-6]が、深層学習による展開はめまぐるしい 1 。特に最近、研究の主流となっている End-to-End モデルは、著者が音声認識研究を開始した 30 年以上前から用いられている方法論・アーキテクチャを一新する * State of speech recognition technology.-Deep learning and end-to-end modeling-1 本解説記事の内容の多くは[4-6]と重なるが、 [4-6]ではそもそも音響モデルと言語モデルが別々の記事になっており、両者を一体的に扱う End-to-End モデルの話はほとんどない。ところまで到っている。本稿では、これらの変遷と「最先端」のモデルについて解説する。 2. 音声認識の方法論の変遷音声認識研究の歴史は 60 年以上に渡る。京都大学では 1960 年頃に単音節単位の認識を行う「音声タイプ」が構築されている[7]。その後、音声認識に有効な音響特徴量と、DP マッチングに代表される動的パターンのマッチング手法に関する基礎的な研究が行われた。これらは、テンプレートベースの方法であり、多数話者のバリエーションをモデル化するには不十分であった。これに対して、確率的なモデルを導入することにより解決が図られた。DP マッチングを拡張した形で隠れマルコフモデル(HMM)が導入され、その改良が様々に行われた。まず、HMM の各状態の音響特徴量のパターンを混合正規分布 (GMM)でモデル化することが導入された。そして、これを最尤推定する代わりに、識別誤りを最小化するように学習（識別学習）する方法が検討された。2000 年代に実用化された音声認識システムは、 GMM-HMM の識別学習に基づくものである。一方、言語モデルについては、単語の連接規則（文法）をオートマトンで記述したものから、その遷移を確率的なものにし、その確率をコーパスから最尤推定する N-gram モデルに移行した。その後、深層学習の導入が進められた。音声認識にニューラルネットワークを用いることは 1990 年頃から研究されていたが、主流になったのは 2010 年以降である。音響モデルについては、 GMM による確率計算をディープニューラルネットワーク(DNN)に置き換えた DNN-HMM が、言語モデルについては、リカレントニューラルネットワーク(RNN)を N-gram と併用するモデルが一般的になっている。最近は、RNN を発展さ解説音声認識技術の変遷と最先端 *-深層学習による End-to-End モデル-河原達也（京都大学） ** 43.72.Ne

Cite

CITATION STYLE

APA

河原達也. (2018). 音声認識技術の変遷と最先端. 日本音響学会誌, 74(7), 381–386. Retrieved from https://www.jstage.jst.go.jp/article/jasj/74/7/74_381/_article/-char/ja

音声認識技術の変遷と最先端

Abstract

Cite

Register to see more suggestions