【モナリザが歌いだす】写真を歌わせるAI「EMO」（エモ）とは？

阿部隼也

22 9月 2025 — 2 min read

アリババグループの研究者が画像1枚から写真を歌わせるAI、「EMO（エモ）」を開発しました。

EMOとは「Emote Portrait Alive（エモート・ポートレート・アライブ）」の略称です。直訳すると「生きた感情を表現するポートレート」となるでしょう。

EMOは「顔写真」と「音声」さえあれば、顔写真があたかも歌っているかのように動かすことができます。

今までの画像に歌わせるタイプのAIは、画像内の人物の口のみを動かしたり、顔が不自然に変形したりするものが多かったです。

しかし、このEMOでは口の動きや曲に合わせて、目や首、髪の毛などが自然に動きます。

百聞は一見に如かず、下の写真をクリックして動画をご覧ください！

私が特に好きな部分はレオナルド・ディカプリオがラップの曲を歌っているシーンでした。AIが生成する動画がここまでスムーズに歌っているとは信じられません。

モナリザが男性の曲を歌っているのもなかなかシュールです！

EMOが自然な顔の動きを再現できる仕組み

EMOがこんなにも自然な動きをする動画を生成できる仕組みは「フレーム・エンコーディング」と「ディフュージョン・プロセス」という2つの工程にあります。

1つ目のフレーム・エンコーディングでは、「1枚の写真から映像を生成する」技術、ReferenceNetと呼ばれるアリババが開発した手法が使われます。

この段階で、画像の中の顔を認識し、その顔がどんな動きをするかをAIが分析をします。そして、１枚の画像から動きのあるフレームを何百枚も生成するのです。

2つ目のディフュージョン・プロセスでは、実際に動画を音声と一緒に動かします。音楽を分析して、どのように口や首、目が動くかなどをAIが推測します。

そしてその分析をもとに画像をつなぎ合わせて、動画を生成していくのです。

また、このプロセスで動画内に含まれているノイズの除去なども行ったり、自然な早さに調節したりします。

（引用元：EMOテクニカルレポート）

↑EMOの仕組み。複雑ですが、大きく分けてしていることは上記で説明した「フレームエンコーディング・フレーム」と「ディフュージョン・プロセス」の2つのプロセスです。

驚くべき技術！しかし、ディープフェイクの懸念も高まる…

このEMO AIはまだ研究段階で、製品化はされていないようです。

しかし、多くの企業がAI開発が進めており、EMOのように写真1枚から人間の動きを再現できるサービスが出てくるのも時間の問題です。

もし、この写真を自然に動かせるAIが誰でも使えるようになれば、ディープフェイクがたくさん作られることでしょう。

今までにも岸田首相やバイデン大統領の映像や音声を真似したディープフェイクが作られ、SNS上で拡散されてきました。

このようなハイクオリティなAIが開発されるにつれて、ますます、ニセ情報や詐欺などに注意しなければなりません。

ただ、ディープフェイクという懸念が増す一方で新しい働き方も生まれるポジティブな考えもできると思います。

TikTokやYoutubeで自分好みのキャラクターとして活動し、インフルエンサーになることもできます。また、個人がドラマや映画を一人で作ったりするケースも増えていくことでしょう。

今まで出来なかったことが可能になることでビジネスチャンスが生まれます。そして、AIを使いこなすということ自体がスキルとして見なされる時代になっていくでしょう。

各国はAIに対して迅速に的確な法整備を進めていくことを求められる一方、個人はAIを使いこなすスキルを身につけ、AI時代のチャンスを掴んでいきたいですね。

参考文献

・EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak

・Alibaba presents EMO AI - All Demo Clips Upscaled to 4K

・Fake images made to show Trump with Black supporters highlight concerns around AI and elections

リアルタイム投票アプリ5選【ライブ配信やイベントで】

ウェビナーやセミナー、社内研修を実施する際、「参加者が受け身になってしまう」「質問がなかなか出てこない」といった課題を感じたことはないでしょうか。オンラインでの情報発信が当たり前になった今、一方的な配信だけでは参加者の満足度を高めることが難しくなっています。そこで注目されているのが、リアルタイムで参加者の意見を集約し、その場で結果を共有できる投票・質問ツールです。本記事では、ライブ配信やイベント、研修などで活用できるリアルタイム投票アプリを5つ厳選してご紹介します。リアルタイム投票でつながる参加者とイベントリアルタイム投票やQ&A機能を使うと、視聴者や参加者の意見を即座に集計・表示できます。講義や会議の進行を妨げず、参加者全員が自分の意見を簡単に表明できる仕組みです。従来の挙手による質疑応答では、発言しづらいと感じる参加者も少なくありません。特にオンラインイベントでは、カメラがオンになっていることへの抵抗感や、大人数の前で質問することへのハードルが存在します。しかし、スマートフォンから匿名で投票やコメントができる仕組みがあれば、参加者は気軽に自分の意見を伝えら

質問受付ツールの選び方とおすすめ5選を紹介

セミナーや講演会、社内研修などで「質問はありませんか?」と投げかけても、なかなか手が挙がらない経験はないでしょうか。参加者に有益な情報を提供しても、疑問や意見が共有されないまま終わってしまうのは、主催者にとっても参加者にとっても大きな機会損失です。こうした課題を解決するために注目されているのが「質問受付ツール」です。参加者がスマートフォンから匿名で質問を投稿できるため、発言への抵抗感が下がり、活発なコミュニケーションが生まれます。本記事では、質問受付ツールの基本機能から、実際に役立つおすすめツール5選、そして選定時に押さえておきたいポイントまで、実務に活かせる情報をまとめて解説します。質問受付の現場課題イベントやセミナーの運営で最も頭を悩ませる問題の一つが、参加者からの質問をいかに引き出すかという点です。質問タイムを設けても、会場がシーンと静まり返ってしまい、仕方なく「それでは時間になりましたので」と締めくくる光景は珍しくありません。この背景には、日本特有の文化的要因も関係しています。大勢の前で発言することへの恥ずかしさ、自分の質問が的外れではないかという不安、他

オンラインセミナーアプリの選び方。参加者エンゲージメントを高めるポイント

近年、オンラインセミナーの活用が急速に広がっています。会場のコストや移動時間を気にすることなく、全国・世界中から参加者を集められる点は大きな魅力です。しかし、せっかく開催しても「参加者が途中で離脱してしまう」「ただ見ているだけで反応が薄い」といった課題を抱えている企業も少なくありません。本記事では、参加者のエンゲージメントを高め、成果につながるオンラインセミナーアプリの選び方と、実務に役立つ具体的なポイントを解説します。参加者とのつながりを生むオンライン環境の設計オンラインセミナーにおける最大の課題は、画面越しの距離感です。会場で直接顔を合わせる機会がないからこそ、参加者が「ただ見ているだけ」にならないような仕組みが求められます。適切なツールと機能選びが、参加者のエンゲージメントを左右します。従来のオフラインセミナーでは、会場の雰囲気や参加者同士の反応が自然と生まれましたが、オンラインではそうした「空気感」が伝わりにくくなります。だからこそ、双方向のコミュニケーション機能や、参加者の行動データを活用した設計が重要になるのです。エンゲージメントを高

参加者の質問を効率的に管理！ZoomウェビナーQ&A機能の使い方を徹底解説

オンラインでのセミナーやイベントが日常化する中で、Zoomウェビナーを活用している企業が増えています。しかし、ウェビナーの開催で意外と頭を悩ませるのが「参加者からの質問をどう管理するか」という点ではないでしょうか。セミナーが盛り上がり、次々と質問が寄せられるのは嬉しいことです。一方で、質問が多すぎて整理しきれない、どの質問に優先的に答えるべきか判断に迷う、といった課題も生じます。こうした問題を解決するために役立つのが、ZoomウェビナーのQ&A機能です。本記事では、ZoomウェビナーのQ&A機能の基本的な使い方から、参加者の質問を効率的に管理する実践的なテクニックまで、詳しく解説していきます。 ZoomウェビナーのQ&A機能とは ZoomウェビナーのQ&A機能は、ウェビナー開催中に参加者が質問を投稿し、主催者側が回答を行うための専用機能です。この機能を使うことで、質問と回答がスレッド形式で整理され、効率的なコミュニケーションが可能になります。チャット機能との違い Zoomには「チャット機能」もあるため、「Q&A機能とチャット機能の違いは何か」と疑問に思う方も多いで