【VASA-1】写真1枚から動画が作れるAIをマイクロソフトが開発!
マイクロソフトがついに写真1枚からリアルタイムで動画を作れるAI、「VASA-1(ヴァサ)」を開発しました。
「写真1枚」と「音声」さえあれば、自然な動きをする動画をつくれます。
特に、声を出しているように感じさせる「唇」の動きみ限らず、「首」や「頭」、「髪の毛」といった細部の動きまで表現ができるようです。
実際にVASAで作られた動画をご覧ください。
実際に作られる動画のサイズは「512 x 512」で、一秒間に40枚のフレームを生成して動画を作り出すことができます。
一枚の写真から全くの別人も作り出せる!
生成する動画は元の写真内の人物に限らず、全く別人の動画も作ることができます。

(画像:VASA-1テクニカルレポートより引用)
左上にある女性の画像1枚で、その女性そっくりの人物を作ることができ、右側にある写真のように、年齢、性別、人種も全く違う人物の動画も生成できるようです。
左に映っているのは笑っている女性のイメージですが、その性別を超えて、全く違う別人になって動かせるのはすごいですね!
肖像画でも動画生成が可能
実際の人物画だけでなく、肖像画も生成ができるようです。

(画像:VASA-1テクニカルレポートより引用)
下の画像は、モナリザが動いている様子。動画生成AIが出る度に、動かされるモナリザ笑

(画像:VASA-1テクニカルレポートより引用)
目の開き方など迫力がすごいです。
どんな画像でも動かせる時代に
VASAは、画像生成AIとの親和性も高いことが伺えそうです。
Stable DiffusionやMidJourneyなど画像生成ができるAIが出てきていますが、今日では高いクオリティのイメージ画像が生成できるようになりました。
本物の人間そっくりなイメージや、プロのイラストレーターが描いたようなアニメキャラクターなど、自分たちが思い描く理想のキャラクターを生成することができるのです。
そんなAI画像をVASAを使うことによって、リアルそっくり自然に動かすことができるようになりました。
このような動画生成AIが発達することによって、AIアナウンサーの仕事が生まれたり、AIタレントといった新しい仕事も生まれそうです。
また、一秒間に数十フレームを描いているアニメーターや、キャストが集められなかった映画監督の作業効率を上げるといった使い方もできるようになるでしょう。
アイドルやアニメファンによる創作活動もより盛んになりそうですね!
また、AI相談.comでは無料で使えるAIチャットを公開しています。調べ事がしたい時や、AIの専門家と話したいときにぜひチャットをご活用ください。
ディープフェイクが最大の懸念点
VASAのような動画生成AIの最大の心配事は、ディープフェイクが作られることです。
実在する人物のフェイク動画を作って、当人が言っていないことを言わせたり、実際はしてないことをしているように見せかけることも可能になります。
個人の創作活動の範囲で収まるものは良いのかもしれませんが、そのようなディープフェイクは悪意をもって拡散される可能性があるでしょう。
そういった場合、事実ではないことを信じてしまう人が増えることが懸念されます。
実際にアメリカや日本でも、ディープフェイクが選挙活動や政治活動で使用されることを懸念し、生成AIの活用を規制する動きも進んでいます。
このような懸念は個人のモラルによって解消できることではないので、国を絡めて規制していくことが必要になっていくことでしょう。
参考文献
・VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
・Microsoft Research VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
・Just one Pic - SUPER REAL DEEPFAKES!!!! (Microsoft VASA-1)