Software - General
1756778 Members
2434 Online
108852 Solutions
New Discussion

音声コミュニケーションの将来 〜コミュニケーションがAI/5G時代と交差する道

 
kyoritaka
Collector

音声コミュニケーションの将来 〜コミュニケーションがAI/5G時代と交差する道

1. 自己紹介

Selfee_small.jpg日本ヒューレット・パッカード合同会社コミュニケーションテクノロジー事業本部の寄高 啓明(Yoritaka Keimei)と申します。

通信事業者向けソフトウェア製品のプリセールスを担当しており、主に、音声やメッセージング(SMSなど)といったリアルタイムなコミュニケーション・サービスを提供するシステム構築の支援をしています。

5Gなどの高速通信手段が普及し、生成AIを中心とした自然言語を使ったコンピュータとの対話が実現しつつある昨今、「音/音声」を活用した新しいコミュニケーション・サービスが注目されています。今回は、「音/音声」を活用したコミュニケーション・サービスについて、現在の到達点と、将来の可能性について考えてみたいと思います。

2. 「音」とは?

世界は音に溢れており、我々の社会は音を様々な形で利用してきました。代表的な例では、意思疎通の手段としての利用(会話)や、エンターテインメント領域での音楽などが思い浮かびます。その他にも、注意喚起を目的としたブザーや、聴診器、Faxなど、多種多様な用途で利用されています。

本稿では「音」の活用方法を整理し、将来に実現されるであろう新しいユースケースを、特にコミュニケーションを軸に探っていきたいのですが、その前にそもそも「音とはなんぞや」について考えてみたいと思います。

 Wikipedia 日本語版によると「音」とは、

音(おと、英: sound[1])は、物が動き、こすれ、また、ぶつかって出る空気の震え(=疎密波)が耳に届いて聞こえるものである[2]。音響(おんきょう)とも呼ばれる。

とのことです。

ただ単に空気が震えているだけの事象に過ぎない「音」を、なぜ我々は利活用する/できるのでしょうか?

「音」、ないしは音を感じる我々の「聴覚」が持つ特徴、特に他の五感(聴覚の他に、視覚、嗅覚、味覚、触覚)にはない特徴が、我々が音を利活用する理由であると考えられます。

思いつく音の特徴を下表にまとめてみました。

音の特徴.png

【音の特徴】

ざっと思いつくものを上げていますが、改めて整理してみると、一口に「音」と言っても、多様な特徴を持っていることがわかります。また、これらの特徴は他の五感にはないユニークなものも多く、例えば「2. 全方向性」を考えてみると、スピーカーや口から発せられた音は、上下左右360度の全ての方向に伝播していきます。一方で、音と同じく波である光の場合、直進性を持ちます(ここでは、物理学的な議論はひとまず置いておきましょう)

この音が持つ「全方向性」や、「回折性」が、「音/音声」でのコミュニケーションが主体となった理由の一つではないかと考えています。

  • 光は直進性を持つため、視覚でのコミュニケーションはお互いに対峙する位置関係が求められますが、音は全方向性を持つので、柔軟な位置関係で伝達可能です
  • 光は回折性が弱いため、間に遮蔽物があると伝達できませんが(壁越しには相手の顔が見えない)、音は高い回折性を持つため、伝達可能です

音の特徴としてもう一つ「4.並行性」と取り上げてみます。いわゆる、「ながら聞き」のことで、みなさんも「ながら聞き」を日頃から実践していると思います。例えば、音楽を聞き「ながら」勉強をする、ラジオを聞き「ながら」運転する、仕事の打ち合わせに出「ながら」内職するなど。

「視覚」は専有性の高い感覚なので、動画を見「ながら」運転するなどの、「ながら」が難しい (捕まります)のですが、「聴覚」はある意味で補助的な役割を果たすことも可能なので、同時に他の作業を行う「ながら」ができるのです。

昨今では、この「ながら」性がマーケティングや広告宣伝の観点から注目されています。忙しい現代人に対して、その時間を占有することを求める「視覚」的なサービスや広告を見てもらうためには、すでに何らかの対象に割り当てている時間を削って、新しいサービス・広告にその時間を割り当ててもらう必要があります。このユーザの可処分時間の奪い合いにかかるコストは相当の大きくなり、サービス提供側への利益を圧迫します。つまり、「視覚」の領域はすでにレッド・オーシャンになっていると捉えることもできます。

一方で、「ながら」の特徴をもつ「聴覚」を活用したサービス・広告であれば、すでに割り当てられたタスクと競合することなく受け入れてもらえる可能性があります。Audiobookなどは、まさにこの特徴を活かしており、特に車での通勤が主体の米国でサービスが伸びているようです。

このように、音の持つ特徴を改めて見つめ直すと、世の中の様々な音に関するユースケースは、これらの特徴がうまく活かされていることに気づきます。また、次世代の音声サービスを考える際も、音の持つこれらの特徴を意識して発想することが一つの切り口になると考えられます。

下表は、音の代表的なユースケースと、活用されている音の特徴を整理しています。

いかがでしょうか?このような形で整理してみると、まだまだ新しい「音」活かし方があり、社会に対して貢献できるような気がしてきませんか? (私だけ?)

音のユースケース.png

【音のユースケース】

3. 音声コミュニケーションの将来

前章で述べたように、我々は音という物理現象を、その特徴を活用することで様々な用途に利用してきました。その中でも、コミュニケーションにおける音の活用である、発話・会話はもっとも身近にあるユースケースです。人間に限らず多くの生物が、音によるコミュニケーションを行っていますが、我々人類は、テクノロジを駆使することで、コミュニケーションを高度に進化させてきました。

それはグラハムベルによる電話の発明に始まります。電話の発明により離れた場所にいる人同士のコミュニケーションが可能になりました。それまでも「のろし」や、手紙と言った通信手段はありましたが、「のろし」で伝えられる情報量は限られますし、手紙は時間をかけて書かれ、配達してもらってようやく相手に届くので、即時性に欠ける手段でした。電話により、より多くの情報を、リアルタイムに相手に届けることができるようになったのです。

その後電話は、緊急呼(110, 119)や、0120 (着信者課金)サービス、留守番電話サービスなどの様々な付加サービスを追加し、ユニバーサル・サービスとして、社会基盤の一端を担うまでに発展しました。

20世紀後半に発明された携帯電話は、電話を家やオフィスなどの設置された場所から解放し、いつでも、どこにでも持ち運べる利便性を提供しました。この「いつでも」、「どこにでも」が提供するベネフィットは、携帯以前を知る世代にとっては画期的なことで、友人・恋人との待ち合わせなどは劇的に変わりました。Z世代と呼ばれる方々は、携帯電話無しでの待ち合わせなど想像できないのではないでしょうか?

2000年以降、近年ではインターネットやコンピューティング、無線技術(4Gから5G)の発展を取り込むことで、音 + αのコミュニケーションが目覚ましい発展を遂げています。

例えば、Web会議などは音声コミュニケーションに映像、コンテンツ共有を付加することで、コロナ禍でのリモート・ワークを実現しました。また、すっかり我々の生活に定着したSNS (Social Network Service)は、テキストベースのコミュニケーションから発展し、音声・映像を取り込んで成長しています。

コミュニケーションの進化.png

 【コミュニケーションの進化】

今後も、技術の発展とともに様々なサービスが考案され、新たな社会基盤として展開されていくことでしょう。

ここからは、少し近い将来に目を向け、技術が実現するであろう新しい音声コミュニケーションについて、いくつかの例を上げ考察したいと思います。

a. 自動通訳

日本人の多くが憧れる(恐怖心を抱く?)、外国語でのコミュニケーションですが、昨今はハンディな翻訳デバイスや、OTTが提供する翻訳サービスなどが徐々に浸透してきたため、使ってみたことのある方も多いかと思います。

これらのサービスが実現された背景には、音声認識、テキスト翻訳、音声合成といった要素技術の進歩がありますが、自動通訳のサービスは、大別すると2つに分けられます。

  • デバイスに話しかけると、指定した言語に翻訳した結果を読み上げてくれるアプリやサービス
  • 人と人の会話の間で、()リアルタイムに翻訳して、会話をサポートするサービス

現在、スマホのアプリなどで多くの方が目にするサービスは前者です。一方、後者については一部のクラウド型コミュニケーション・サービスでの提供が始まっていますが、リアルタイム性が求められることや、会話への自然な介在といったいわゆるUI/UXが難しく、字幕としてPCの画面下部に翻訳結果が出力されるものにとどまっています。

一方で、ユーザとしては移動中などPC/スマホの画面を見ることが難しい場合もありますし、画面を直視しているのは単純に疲れる、「ながら」したいなど、翻訳された結果を音声として聞きたいというニーズがあり、さらなる発展が期待されています。

弊社ソリューションである、HPE TAS (Telecom Application Server)と、HPE OCMP (Open Call Media Platform)は、自動翻訳を含むリアルタイムなコミュニケーションサービス構築を支援するソリューションです。

弊社では、これら自社ソリューションを活用し、通信事業者様とともに「人と人の会話をサポートする自動通訳サービス」に取り組んでおり、次回以降のブログでご紹介できたらと思います。

自動通訳.png

【自動通訳サービス(人と人の会話をサポート)】 

b. 音声アシスタント

スマートスピーカーなど、音声コマンドでサービスを起動するデバイスが普及しています。音声による操作は、リモコンを探す手間からの解放や、料理をしていて手が離せない時(〜「ながら」)でも使えるなど、その利便性は高いものがあります。

一方で、音声を解析(音声認識)し、要求を理解(AI)、実行し、結果(音声合成)を音声で知らせるという処理は、従来技術的なハードルが非常に高く、実現できるのは一部の大企業に限られていました。

しかし近年、これらの技術 (音声認識、音声合成、AI (LLM) )がクラウドベース(as a Service)で安価に提供されるようになり、技術的なハードルが低くなったため、様々な企業が取り組みを開始しています。今後、多くの企業・団体の取り組みを通じて、より多くの場面で音声による制御が浸透していくと思われます。

弊社においても、前述したHPE TAS/OCMPを基盤として活用し、音声コマンドによるデバイス制御の試作を行っています。
(弊社内では、「チャッピー」という愛称で呼んでいます)

チャッピー_001.png

 【音声アシスタント・チャッピー】

上記の例は人と機械 (Human to Machine (H2M))でのコミュニケーションですが、将来は人と人(Human to human(H2H))のコミュニケーションにAI(LLM)が介在し、より円滑なコミュニケーションを支援してくれる世界がやってくるかもしれません。

チャッピー_002.png

 【音声アシスタント・チャッピー 〜人と人との会話をサポート〜】

このユースケースは、人対人の自由な会話にサービス(AI)が介在する必要があります。スマートスピーカーと比較しても技術的なハードルが高いため、実現には少し時間がかかるかもしれません。

  • スマートスピーカーに何かを要求する場合、人は比較的丁寧な言葉を使いますが、人との会話ではスラングが多用されるため、音声認識の精度や、分析のハードル高い
  • 適切なタイミングでのサービス(AI)からの介在が簡単ではない
    (
    逆に火に油を注ぐことになりかねない)

弊社では、前述した自社ソリューション(HPE TAS / OCMP)を核に据え、プロトタイプ開発などを通じて、フィージビリティスタディを進めており、このブログでもご紹介できる日が来ると思います。

c. マルチモーダルな世界

我々は音声に加えて様々なコミュニケーション手段を有しています。Eメール、SNSSMSに代表されるチャット、ビデオ会議、身体表現(表情、ジェスチャー、手話など)や、触覚(Tactile)などです。

一方で、従来のコミュニケーションサービスは、各々の手段の枠に閉じたものが多いのが現状です。メールにはメール、チャットにはチャット、声には声を使ってインタラクションしています。

このような現状に対し、手段をまたいだコミュニケーションの発展が期待されています。(複数の手段、データを使用するコミュニケーションのことを、マルチモーダルなコミュニケーションと呼びます。)

例えば、下図のように音声とテキストの変換をリアルタイムに行うことで、従来難しかった聴覚が不自由な方との電話を通じたコミュニケーションを実現できます。これは、音声とテキストの複数手段を入出力とした、マルチモーダルなコミュニケーションの例です。

見える電話.png

 【通話の見える化サービス】

マルチモーダル性の実現は、3GPP(*)でも検討が進んでおり、今年春リリースされる予定のRelease 18で、5Gにおける実現すべきユースケースとして議論されています。
*) 3GPP : 3rd Generation Partnership Project
の略で、移動通信システムの仕様検討や、技術的な標準を策定する国際的な標準化団体です。

マルチモーダルの実現により、様々な身体的な障害や、環境制約などの壁を超えまさに、everyone, everywhere, everytimeなコミュニケーションが実現されるかもしれません。

また、マルチモーダル技術は、メタバースやAR/VRと言ったサービスの実現にも重要な役割を担っており、3GPPでの標準化を経て、これらのサービスのさらなる発展が期待されています。

multimodal.png

 【マルチ・モーダルコミュニケーション (3GPP TS22.261をベースに筆者作成)】

4. 終わりに

今回は、「音」の特徴に注目して、そのユースケースを振り返り、コミュニケーションのあり方、将来実現されるであろう新しいコミュニケーションの形についていくつかのアイディアをご紹介してきました。

我々HPEでは、音声・映像処理プラットフォームであるHPE OCMP (OpenCall Media Platform)、呼制御プラットフォームであるHPE TAS (Telecom Application Server)を活用し、通信事業者様とともに様々なリアルタイム・コミュニケーション・サービスの試作検討や商用開発を行ってきました。

RealteimeCommunication.png

 【リアルタイム・コミュニケーション分野への取り組み】

今後も、引き続き新しいコミュニケーションの開発にチャレンジしていきます。

 

通信事業者様向けのソリューション紹介
DXPについてはこちらからご覧いただけます。