音声認識技術とは?仕組みと小売ビジネスへの可能性を探る

column

音声認識技術とは?仕組みと小売ビジネスへの可能性を探る

Text : АIЯI

ボタンを押す。画面をタップする。そして、“話しかける”──。私たちの生活と密接に関わるコンピューターを操作する方法のひとつとして、いま注目されているのが「音声認識」だ。

スマートフォンだけでなく、音声を伝えることで応答があったり、特定の動作が実行されたりするデバイスや専用スピーカーも増えてきている。こうしたプロダクトには、機械に人の声を認識させる技術が使われており、代表的なものとしてApple製品に搭載されている「Siri」や、Googleの提供する「Googleアシスタント」などが挙げられる。

ここでは、そもそも音声認識とはどんなものなのか、そして、小売ビジネスへどのように活用できるのかを詳しく解説する。

音声認識とは、コンピュータによる音声の「文字変換」

音声認識は「コンピュータが認識した人間の音声を、文字列に変換する技術」のこと。人の声の特徴をとらえ、話者の特定ができる場合もある。

近年では、iPhoneに搭載されたSiriやAndroid端末のGoogleアシスタントのように、インタラクティブな応答や処理を返す音声アシスタントサービスも、この音声認識技術をもとに開発されている。

音声認識の仕組み

音声は振動なので、波に表現することができる。コンピュータはまず、人が発したこの音声の波形から、音の最小構成単位「音素」に分類するのだ。

例えば日本語の音素は、次の母音・撥音・子音で構成されている。

母音:ア・イ・ウ・エ・オ
撥音:
子音:23種類

分類する際、これらの音素にどのくらい近いのかを計算するために必要になってくるのが、「音響モデル」である。

音響モデルは、一般的には数千人分かつ数千時間分の音声の持つ「周波数」や「時間変化」を、統計的に処理したものだ。音素ごとの特徴がデータで分析されている。

(株式会社アドバンスト・メディアの音声サービス「AmiVoice」公式サイトより)

入力された音声は、どの音素分布に近いかこのモデルを元に判断される。一定量のデータをもとに人工知能(AI)が自律的に学習する「Deep Learning(深層学習)」を活用することで、近年は音素識別の精度も大きく向上。さまざまなサービスに実装されてきている。

しかし、すべての話者が一つひとつの文字を明瞭に発音しているわけではない。そのため、音素の並びを予め登録した「辞書」とマッチングさせ、意味の通る単語に変換する必要がある。

(株式会社アドバンスト・メディアの音声サービス「AmiVoice」公式サイトより)

認識した単語をもとに、文脈を考えたり、さらには各分野専門の辞書を引いたりする動作を加えるからこそ、人が発した音声を文章として精度高く認識できるようになるのだ。

音声認識の歴史

そもそも、音声認識にはどのくらいの歴史があるのだろうか。

Microsoft AI Japan Teamのブログによれば、最初に音声認識プロジェクトに取り掛かったのはアメリカの国防高等研究計画局(DARPA)で、1971年のことだ。1975年には、IBMが民間で初めて音声認識の開発に着手した。その後、1970年代後半〜90年代半ばまで、さまざまな音声認識技術が登場し研究は続けられていく。

転機となったのは、1995年。Microsoftが「Windows95」にスピーチツールを搭載したことで、音声認識技術の一般への普及が始まる。2011年にはAppleが「iPhone 4S」にSiriを搭載し、技術そのものに対する認知度が上がった。

さらに、2014年にMicrosoftが「Windows 10」の音声認識機能付きアシスタントとして「コルタナ」の提供を開始。2016年にはGoogleアシスタントも発表され、音声認識は私たちにとって身近なものとなった。

音声検索・音声アシストの種類と利用できるデバイス

現在は音声認識技術をAIと組み合わせることで、音声をただ文字に起こすだけでなく、さまざまなアクションにつなげられるようになってきた。音声によるWeb検索や、天気情報のアナウンスは、その代表例だ。

また、目的地へのナビゲーション、通話の開始やメッセージの送信など、デバイスの操作も行うことができる。ユーザーをサポートすることから、こうしたサービスは「音声アシスト」とも呼ばれている。

ここでは音声検索・音声アシストの種類と、それぞれ利用できるデバイスを見てみよう。

Siri

Siriは「Speech Interpretation and Recognition Interface」の略で、iPhoneやiPadなどのApple製品に搭載される対話型人工知能のこと。登場した当初はiOSのみに搭載されていたが、現在ではMacにも対応されている。

検索やナビゲーションなどのアシストをするだけでなく、雑談のような掛け合いもできるのが特徴だ。

Googleアシスタント

メッセージアプリ「Allo」、スマートスピーカー「Google Home」とともに発表された、Googleが提供する対話型人工知能。Android搭載のスマートフォンやGoogle Homeで利用することができる。

Googleは元々、人工知能によるアシスタント機能として、検索機能の拡張版「Google Now」を提供していた。音声による入力と検索のみのGoogle Nowとは異なり、対話を可能にしたのがGoogleアシスタントとなっている。

Clova

日本のLINE株式会社が開発した、LINEと親和性の高い対話型人工知能。2017年に発売された「Clova WAVE」をはじめとするスマートスピーカーに搭載されている。

スピーカーに呼びかけて、LINEでメッセージを送ることができるのが特徴。赤外線リモコンの「Clova Friends Dock」とセットで利用すれば、声だけで既存の家電も操作することができる。

Alexa

Amazonが提供する対話型人工知能。2014年にスマートスピーカー「Echo」と同時に発表された。

天候情報を提供したり、音楽を再生したりするだけでなく、スマートリモコンと接続することで冷蔵庫などの家電の操作にも対応。また、Amazonアカウントとの連携により、ECの購買記録や購入を保留にしているオーダーの検索も実現させている。

音声認識はどのように小売ビジネスを変化させるのか?人材不足解消の可能性

スマートフォンやスマートスピーカーの普及と共に、音声認識技術は人々の生活に着々と浸透している。一方で、小売ビジネスの領域においても、積極的な活用が始まっていることには注目しておきたい。

例えば、様々な業界において深刻な問題となっている「人手不足」。この問題を解決するために注目されているのがAIを搭載したツールであり、音声認識技術もその一翼を担う。

既にコンタクトセンターにおいて、音声認識技術を持つ人工知能を活用している例がある。コールセンターを運営するトランスコスモス株式会社では、音声認識ソリューション「transpeech」を提供し、顧客やオペレーターの声を文章化。さらに、人工知能が「内容に問題がある」と判断した部分を抽出する。これをオペレーターの教育に活用し、応対の質の向上に繋げようというのだ。

トランスコスモス株式会社が発表した「AIディフェンダー」

ほかにも、TVショッピングを利用した注文受注に、人工知能を搭載した音声ボットの導入を目指す企業もある。通販サービス「ディノス」を運営する株式会社ディノス・セシールHmcomm株式会社と共同で、日本初の通販のコールセンター向けに特化した自動応答受注システム開発へ取り組んでいる。

小売ビジネスにおいて、こうした音声認識技術の導入は今後加速していくだろう。音声認識を使った自動翻訳が多くの言語に対応すれば、外国人顧客の獲得にもつながる。飲食店での注文にも、音声認識が導入され受注業務の簡略化ができれば、店舗の人員不足が解消したり、スタッフが接客などほかの業務に注力できるようになるかもしれない。

AIがより多く学習を重ね、音声認識技術の精度を上げることで、小売ビジネスにおける活用は今後、さらなる広がりを見せることだろう。