HomePodの自動環境音計測機能は、人には伝わり辛いテクノロジー

DANBO
5 min readFeb 20, 2018

--

Appleが発売した「HomePod」は、元々iPhoneの据置型スピーカーとして開発されてきた製品で、発表直前になってSiriを内蔵機能として追加されることになり、大幅な発売の遅れが生じてしまった。

またSiriが搭載されたことで、スマートスピーカーとしての認知はされやすくなったものの、HomePod最大の特長である環境音を計測し、サウンドを調整する空間認識機能が同じAIのような捉え方をされてしまい薄らいでしまっている気がする。

オーディオ機器の音はその大半が(50〜70%以上)「部屋の反射によって作りだされた音」のため、考え得る限りのAVアクセサリーを駆使した音質改善より、お金を一切かけないで、スピーカーの位置調整だけを入念に行った方が音質は向上する。

部屋に同じスピーカーを2本左右に設置しても、それぞれのスピーカーから近い壁や物などによる反射音によって左右の音は異なり、均一にするために究極を求めるあまり、コンサートホールのような専用の部屋を作る人もいるほどだ。

しかし、一般的には、反射音を均等にするために、家具の配置を変えたり、テレビの位置を変えたりする人は少なく、結局、反射音環境はそのままに、置ける場所にスピーカーを設置する人がほとんどだと思う。

そうした、スピーカーの位置調整による音質改善を行う「サウンドセッティング」を、アプリを使って環境音を計測し、サウンド調整結果をスピーカー側にセットする方法を取り入れたのが、2015年に登場したSonosの「Trueplay」技術だ。

Sonosは、その後、Amazon Alexaにも対応し、Apple Music、pandora、Spotify、Google Play Musicなど50以上のストリーミングサウンドサービスにもネイティブ対応しており、HomePodのライバルはどれか?と尋ねられたら、日本ではまったく知られていないSonosということになると思う。

このSonosがApple Musicに対応している理由は、元々Beats Musicに対応した製品であり、Beatsとの間で長期サービス契約を締結していたため、BeatsをAppleが買収したことにより、Apple Musicに変わったという背景がある。

HomePodの強みは、このアプリで計測する「Trueplay」技術を、スピーカー自体に自動実行させる機能を実装したという点にある。

しかも、反射音計測はiPhone 6性能のA8チップにより一瞬で計測を終え、それをApple Musicから再生される楽曲毎に反映させるということをやってのけている。

コンサートホールの設計が難しいと言われるのは「反射音」をきちんとコントロールすることが難しいのであり、生音そのものの調整が難しいわけじゃない。

この反射音のコントロールを簡単に調整する技術が「サラウンド」技術だが、そのためには最低5本スピーカーが必要になってしまう。

HomePodは、ハイエクスカーション対応ボイスコイルウーファー、ベンテッドボイスコイル ボビン構造のアルミドームツイーターを7個搭載しており、人間の耳では聞こえないモスキート音を出して、環境音、音声認識など用に装備された6個のマイクで反射音を計測している。

https://images.apple.com/media/us/homepod/2018/dc73c1ef_eae9_4146_b080_5fbb3684b99e/overview/room-sensing/video/large.mp4

その結果を踏まえて、正面側の音にはなるべく手を加えず、反射音側に向けて出す音に対しては、反射音の増減影響結果を反映させた音を出す仕組みを採用している。

そのため、反射音を考慮した音を直下で聞くと、決して良い音としては聞こえない。

つまり、反射した音を判断するというのは、これまでのサウンドアナリストには体験したことがない評価のした方であり、その結果、音の評価が分かれてしまうのだと思う。

このHomePodのサウンド調整機能は、CoreMLに近い技術を使用しているが、Siriとはまったく別次元の技術で、もしSiri機能が無ければ、HomePodはインテリジェントスピーカーと呼ばれていたかもしれない。

このスピーカー自体が設置された環境に合わせてサウンドを調整する機能は、他社製スピーカーとして「Google Home Max」にAI機能「Smart Sound」としても装備されている。

スマートスピーカーとして注目されるのは音声認識機能ばかりだが、スピーカー自体の進化としては、このスピーカー本体が環境音を計測し、自分でサウンドセッティングを実行してくれる機能の方が注目されるべきだと思う。

ただ、実際に目に見える形の技術ではなく、すでにサウンドセッティング済みのサウンドで聞こえてしまうため、どう違うのか?が分かりづらく、マーケティング的に、かなりハードルが高い案件ではないかと思ってる。

--

--