戻る


まるで『名探偵コナン』…遂に誕生した万能「変声機」の凄さと怖さ 聞けば、きっと誰もがダマされる…

Modulateが公開しているサンプル、一番右側にあるのがオバマ前大統領の声に変換するデモ

写真拡大

『名探偵コナン』のアノ発明品が現実に

もはや国民的アニメと呼んでも良いだろう『名探偵コナン』。その中でお馴染みなのが、主人公・江戸川コナン(実は高校2年生の工藤新一が、悪の組織によって小学1年生に変えられてしまった姿)が私立探偵・毛利小五郎の体を借りて事件の真相を暴くシーンだ。

コナンは彼を睡眠薬で眠らせると、胸に付けた「蝶ネクタイ型変声機」を使って、自分の声を毛利小五郎そっくりに変換する。そして自らつきとめた事実を語って、問題を解決するのである――あたかも毛利小五郎が事件の謎を解いたかのようにして。

もちろん名探偵コナンはフィクション作品だが、多くのフィクション作品と同様に、劇中に登場するテクノロジーに現実のテクノロジーが追い付こうとしている。そう、この蝶ネクタイ型変声機さながらの「声の変換」を実現する技術が登場しているのだ。

まずはこちらのデモ映像をご覧いただこう。

45秒という短い映像だが、登場する男性の声がリアルタイムで変換され、女性のようになったり、別の男性(しかも映像内の男性より明らかに若い少年)のようになったりするのがわかるだろう。

特に15秒からの声に注意してほしい。この声に聞き覚えはないだろうか? そう、オバマ前米国大統領の声だ。コナンの蝶ネクタイ型変声機と同様に、特定の人間の音声を完璧にコピーできるのである。

映像内にテロップが出ているが、この男性はMike Pappasといって、『Modulate』というスタートアップの創業者兼CEOである。当然ながらこの技術も、彼の会社が開発したものだ。Modulateのホームページには他にも簡単なサンプルがあるので、興味のある方は確認してみてほしい。

Modulateが公開しているサンプル、一番右側にあるのがオバマ前大統領の声に変換するデモ

声のトーンをランダムに上げ下げしたり、あるいは一定のトーンにしたりして、自分ではない声にするという技術は、もちろんこれまでも存在していた。Modulateが画期的なのは、特定の人物の声へとリアルタイムで変換する技術を、誰もが利用できるサービスとして展開しようとしている点だ。

同社によれば、訓練用のデータが十分にあれば、誰の声でもコピーできるそうである。江戸川コナンは毛利小五郎の探偵事務所に居候しているという設定なので、仮にコナンがModulateに変声機の制作を依頼したとしたら、十分なデータを取ってこられるだろう。

このように、自分や誰かの声を任意に変化させることを「音声モーフィング」と呼び、いまAI技術をこの分野に応用しようという取り組みが盛んになっている。

そしてModulateがこのサービスを実現するのに活用したのが、「GAN(Generative Adversarial Networks、競争式生成ネットワーク)」と呼ばれる最新のAI技術だ。

悪用防止の対策はあるものの…

GANについては、以前フェイクニュースに関する記事でも取り上げたことがある。簡単に説明すると、目標とするコンテンツを自動生成するAIと、そのコンテンツが本物かどうか見破るAIを用意し、その間でコンテンツ生成と真偽鑑定の「競争」を何千何万回と繰り返させることで、より自然で本物に近いコンテンツを生成できるようにするという手法である。

GANはいま、映像コンテンツ生成の分野で大きく注目されており、その威力を見せつけるものとして、同じくオバマ前大統領をサンプルとした(なぜか彼はデモの素材として人気らしい)有名なフェイク動画がある。

この中で偽のオバマ氏は、「キルモンガー(映画『ブラックパンサー』に登場する悪役)は正しい」「トランプ大統領は大バカ者」など、本物がまったく言いそうにないセリフを口にしている。

そのため彼をよく知る人であれば、「何かおかしい」というフェイクの可能性を疑うことだろう。しかし彼の性格や表現のスタイルについてよく知らないという場合は、これがフェイクかどうか見破るのは至難の業に違いない。

そうした高品質のフェイク映像をつくり出せるAI技術を活用しているのが、Modulateのサービスというわけだ。となれば悪用が心配されるところだが、当然ながら同社もそのような使い道は推奨しておらず、たとえばオンラインゲームなどで使用するアバターに好きな声を喋らせるといった活用法を想定しているそうである。

最近は他のユーザーとマイクを通じてコミュニケーションできるオンラインゲームも増えているが、いくらアバターを可愛らしい女性にしても、野太い声では自分が中年男性だとばれてしまう(もちろんその逆のパターンもあるだろう)。そこでアバターを自分好みに着飾るのと同様に、声も好きなようにカスタマイズできれば、というわけだ。

また同社の技術を報じたMIT Technology Reviewの記事によれば、Modulateでは実在する人物の声のコピーを要求された場合、コピーされる人物の許可を得ていることを証明するよう求めるそうである。

また自社技術で生成された声だとわかるように、音声データ内に「デジタル透かし」を入れ、後からチェック可能にすることにも取り組んでいるそうだ。確かにこうした対策を取ることで、一定の悪用防止にはなるだろう。

しかしこれで、フェイクニュースならぬ「フェイク音声」の被害を防止できるのだろうか。

オレオレ詐欺がさらに横行?

人間がいかに音声によるコミュニケーションに騙されやすいか、振り込め詐欺、つまり「オレオレ詐欺」の被害が一向に無くならない日本に住む私たちには、痛いほどわかっているだろう。そんな状況でModulateのような音声モーフィングサービスが普及すれば、さらに詐欺行為が横行してしまう不安はないのだろうか。

実際に、気になる研究結果が出ている。アラバマ大学バーミンガム校コンピューターサイエンス学部の研究によると、人間の脳は、よく似た人間の音声の聞き比べができない可能性があるそうだ。

この研究を指揮した、主任研究者のNitesh Saxena博士は、同校のニュースリリースにおいて「人間は音声モーフィングを使用した攻撃に対し、根本的に脆弱な存在である可能性がある」と指摘している。

photo by iStock

この研究では、オリジナルの声と変換によってつくられた声を被験者に聞かせ、その際に脳がどのような反応を示すかを、機能的近赤外分光法(fNIRS)という手法を使って観測した。

すると違う人の音声を聞かせた際には、脳の動きに違いが見られたものの、オリジナルの音声と、変換によってそれに似せた音声を聞かせた際には、脳内で同じ処理が行われていたそうである。つまりあくまで音声だけをインプットとした場合、人間の脳はオリジナルの声と、変換によってつくられた声に対して、脳のレベルで聞き分けができていないわけだ。

前述のSaxena博士は、こうした脳の構造について「現在および将来における音声合成技術を悪用したさまざまな詐欺行為に対し、人間を弱い立場においてしまうかもしれない」と解説し、さらに「たとえば誰かがあなたの母親のふりをしてボイスメッセージを残しても、それが本物かどうか見極められない可能性がある」とコメントしている。

考えてみれば、人間が音声だけのコミュニケーションに日常的に直面するようになったのは、人類の歴史から考えればつい最近の話だ。グラハム・ベルが電話の特許を出願したのが1876年であり、一般家庭への普及を考えれば、100年ほどしか音声だけのコミュニケーションを経験していないと言えるだろう。これでは音声だけで人を識別できるように脳が進化するなど、到底無理な話だ。

Modulateは特定の人物への滑らかな音声変換を行うために、どの程度のサンプルデータがあれば十分なのかを明らかにしていない。しかし他のAI技術、特に機械学習と呼ばれる、データに基づいてAIの性能を高めるという分野では、サンプルデータが少なくても一定の成果を出せる方向へと、技術が進化する傾向にある。

またModulateがこうしたサービスを立ち上げた以上、他のテクノロジー系企業もこの分野に参入して来るだろう。そうなれば、より少ないデータで、より高品質の音声変換を提供する企業が現れるに違いない。

自分は高齢者ではないし、芸能人でもないからモノマネ芸人にドッキリを仕掛けられる恐れもない。だから声で騙される恐れはない――などと油断していると、ある日突然かかってきた、家族や恋人を名乗る人物からの電話にころっと騙されないとも限らない。

耳元で必死に助けを求める声は、本当に自分がよく知る人物のものなのだろうか――もしかしたら小学1年生の男の子が変声機を使っているのではないか、と念のため疑ってみることが、これからの時代には必要なのかもしれない。

原文リンク

本站帖子來源於互聯網,轉載不代表認可其真實性,亦不代表本站觀點!
關於本站| 官方微博| 私たちの関心網| よくある問題| 意見反饋|copyright 私たちの関心網