【Genie】Google DeepMindが画像1枚からゲームを作れるAIを開発!

Google DeepMindは、画像1枚あれば無限に世界が広がる操作可能なゲームを作りだせるAIを開発しました。

その名も「Genie(ジーニー)」。

Genieは20万時間にも及ぶインターネット上のゲーム動画から訓練され、110億のパラメーターを持つAIモデルです。

OpenAIのSoraと同様に物理法則を理解しながら、ゲーム世界を作り出すことができることから「世界基盤モデル(Foundation World Model)」と呼ばれています。

画像1枚から、物体や起きている出来事を認識してゲーム世界を創造します。

画像はAIが作る合成画像でも、自分で撮った写真でも構いません。ノートの片隅に描いた落書きからでもゲームを作り出すことができるようです。

(引用元:Genieテクニカルレポート

↑実際にGenieによって作り出されたゲーム。Genieは2Dのスクローリングゲームを主として作れます。

Genieが作り出す「ホール・ニュー・ワールド」

Genieが作り出すゲームの特徴は、ゲーム世界に制限がなくどこまでもキャラクターが進むことができる点です。

多くのゲームの世界には端があり、行ける場所には限りがあります。

例えば、「スーパーマリオワールド」や「ゼルダの伝説」の世界にも端は存在し、プレイヤーが行ける場所には制限があります。

しかし、Genieが作り出す世界には、その端がなくどこまでもプレイヤーは進むことができます。イメージとしては、マインクラフトに近いでしょう。

そんなゲーム世界が作れる理由は、最先端の「時空間トランスフォーマー(Spatiotemporal Transformer)」と呼ばれる動画生成のAIモデルにあります。

アノテーションやラベル付けが行われていないのにも関わらず、次にくるであろうフレームを予測して無限のゲーム世界をつくり出しているのです。

(引用元:Genieテクニカルレポート

↑Genieを使うことによって、文章、ノートの落書き、現実世界の写真をプロンプトとして、ゲームの世界を作り出すことができます。

Genieはどのようにゲームを生成しているのか?

Genieがゲーム世界を創造するのには大きく分けて5つのステップがあります。

  1. Genieに読み込ませる動画を準備する。
  2. 読み込んだ動画の重要なフレームのみをビデオトークナイザーでトークン化する。
  3. 動画内のジャンプや移動などの8つのアクションを潜在的アクションモデルで特定する。
  4. ダイナミックモデルで次に起きる映像を推測し、動画化する。
  5. Genieが動画を出力し、一連のスムーズなゲームができる。

一連のプロセスを表したのが下の図です。下でわかりやすく図の仕組みを説明します。

Image

(引用元:Genieテクニカルレポート

Genieの仕組みはYoutuberの編集作業に近い

Genieのゲーム生成の仕組みは、YouTuberが動画を作る作業に似ています。

YouTuberが動画をアップロードするのにも、Genieのように5つのステップが必要です。

  1. Youtuberが動画を撮影する。
  2. 動画で面白いところを切り抜いて編集する。
  3. そのシーンの面白さを伝えるために、字幕や音声をつける。
  4. 視聴者が笑うところを推測して、重要なシーンをつなぎ合わせる。
  5. Youtubeに動画を投稿して、視聴者に動画を観てもらう。

まず、上のステップの1で言われている通りに、Youtuberは動画を撮影して動画を準備する必要があります。Genieでも訓練ようの動画を準備する必要がありました。

2のステップでは、Youtuberが撮影した動画で重要な部分を切り抜きます。いわゆる編集の作業です。

撮影した動画すべてを使うと長尺で面白くない動画になってしまいます。そのため、動画を面白くするために編集を行うのです。

Genieではこの動画をトークン化(切り抜き作業)をビデオトークナイザーと呼ばれるもので行います。

読み込んだ映像の中で、ゲームを再現するのに必要な部分を自動で判断し、トークン化するのです。

3のステップでは、Youtuberが動画に字幕や音声をつけます。切り抜いた動画だけでは、動画内で何が起きているのかわかりません。そのため、切り抜いた動画の面白さを伝えるために音声をつけます。

Genie内では、潜在的アクションモデルがこの作業を行います。

例えば、キャラクターが地面にいる時のフレームと、キャラクターが空中にいる時のフレームを2つを判断し、「ジャンプ」をしていると認識することです。

4つ目のステップでは、Youtuberは視聴者が笑うところを推測して、今までの動画をつなぎ合わせます。

Youtuberの感性が視聴者に近ければ近いほど、1つの面白い動画が出来上がるのです。

Genie内では、ダイナミックモデルというプログラムが動きます。ビデオトークナイザーでトークン化した動画と潜在的アクションモデルで意味づけした2つをもとに、次に起きることを推測して出力するのです。

5つ目の最後のステップでは、Youtuberは出来た動画をYoutubeに投稿し、視聴者が動画を見て楽しんでもらいます。

Genie内でも動画が出力され、ユーザーがゲームを楽しむことができます。

データの質が良いほど、良いゲームが生成される

今回、Google DeepMindがGenieを作ってわかったことは「質の高いデータを使って訓練することで、質の高いゲームが生成される」ということです。

Google DeepMindはクラシファイアというデータの分類器を使って、質の高いデータをGenieに読み込ませました。

このことから、クラシファイア(データ分類器)の質が良ければよいほど良いデータが集められ、良いゲームができるという結論に至りました。

また、データに加えて「パラメーター数とバッチサイズを増やしていくにつれてより高いクオリティのゲームが作れる」ということもわかりました。

パラメーター数とは、AIが学習するためのデータの量のことです。一方、バッチサイズとはAIが一回の学習に使えるデータの量のことです。

こちらのAIの説明を数学のテスト勉強をする高校生に例えるなら、パラメーター数とは、高校生が理解した公式の数です。

高校生が理解した公式が多ければ多いほど、難しい問題を解くことができます。

Genieもパラメーターが多いほど高いパフォーマンスを発揮できるようです。

またバッチサイズとは、一日に勉強できる量です。一日に1章勉強した方が良いのか、参考書を一冊勉強できるのか、高校生のキャパシティによって決まります。

今回のGenieについては、一回に学習できるデータが多ければ多いほど、クオリティの高いゲームが生成できるということでした。

その結果を示したのが下のグラフになります。データのクオリティを上げることに加え、AIの計算能力を上げることで、生成するゲームのクオリティを高めることができるということがわかりました。

Image

(引用元:Genieテクニカルレポート

Genieが生成AIをどう変えるのか

Genieの最も革新的な部分は「ユーザーが操作可能な世界を作り出すこと」にあります。

今までChatGPT、Gemini、Soraなど数多くの生成AIが誕生してきましたが、リアルタイムで画像や映像を操作できるAIは未だに少ないです。

もしも、Genieのようにリアルタイムで物体を操作できるゲームのようなAIがでてくるとしたら、自分が主人公になったような体験ができる没入系のゲームや映画が増えていくと考えられます。

今はまだ、1FPS(フレーム/秒)の映像しか生成することができませんが、テクノロジーの進歩に応じてGenieが生成できるゲームも30FPS、60FPSと増えていくことでしょう。

そうなると、VRヘッドセットなどを使って、本物そっくりな仮想空間が作り出せるようになるかもしれませんね。

マトリックスの世界が現実味を帯びてきているようです。

参考文献

🧞 Genie: Generative Interactive Environments

Genie: Generative Interactive Environments

Google’s Genie game maker is what happens when AI watches 30K hrs of video games

Read more

リアルタイム投票アプリ5選【ライブ配信やイベントで】

リアルタイム投票アプリ5選【ライブ配信やイベントで】

ウェビナーやセミナー、社内研修を実施する際、「参加者が受け身になってしまう」「質問がなかなか出てこない」といった課題を感じたことはないでしょうか。 オンラインでの情報発信が当たり前になった今、一方的な配信だけでは参加者の満足度を高めることが難しくなっています。そこで注目されているのが、リアルタイムで参加者の意見を集約し、その場で結果を共有できる投票・質問ツールです。 本記事では、ライブ配信やイベント、研修などで活用できるリアルタイム投票アプリを5つ厳選してご紹介します。 リアルタイム投票でつながる参加者とイベント リアルタイム投票やQ&A機能を使うと、視聴者や参加者の意見を即座に集計・表示できます。講義や会議の進行を妨げず、参加者全員が自分の意見を簡単に表明できる仕組みです。 従来の挙手による質疑応答では、発言しづらいと感じる参加者も少なくありません。特にオンラインイベントでは、カメラがオンになっていることへの抵抗感や、大人数の前で質問することへのハードルが存在します。 しかし、スマートフォンから匿名で投票やコメントができる仕組みがあれば、参加者は気軽に自分の意見を伝えら

By 阿部 隼也
質問受付ツールの選び方とおすすめ5選を紹介

質問受付ツールの選び方とおすすめ5選を紹介

セミナーや講演会、社内研修などで「質問はありませんか?」と投げかけても、なかなか手が挙がらない経験はないでしょうか。参加者に有益な情報を提供しても、疑問や意見が共有されないまま終わってしまうのは、主催者にとっても参加者にとっても大きな機会損失です。 こうした課題を解決するために注目されているのが「質問受付ツール」です。参加者がスマートフォンから匿名で質問を投稿できるため、発言への抵抗感が下がり、活発なコミュニケーションが生まれます。 本記事では、質問受付ツールの基本機能から、実際に役立つおすすめツール5選、そして選定時に押さえておきたいポイントまで、実務に活かせる情報をまとめて解説します。 質問受付の現場課題 イベントやセミナーの運営で最も頭を悩ませる問題の一つが、参加者からの質問をいかに引き出すかという点です。質問タイムを設けても、会場がシーンと静まり返ってしまい、仕方なく「それでは時間になりましたので」と締めくくる光景は珍しくありません。 この背景には、日本特有の文化的要因も関係しています。大勢の前で発言することへの恥ずかしさ、自分の質問が的外れではないかという不安、他

By 阿部 隼也
オンラインセミナーアプリの選び方。参加者エンゲージメントを高めるポイント

オンラインセミナーアプリの選び方。参加者エンゲージメントを高めるポイント

近年、オンラインセミナーの活用が急速に広がっています。会場のコストや移動時間を気にすることなく、全国・世界中から参加者を集められる点は大きな魅力です。 しかし、せっかく開催しても 「参加者が途中で離脱してしまう」 「ただ見ているだけで反応が薄い」 といった課題を抱えている企業も少なくありません。 本記事では、参加者のエンゲージメントを高め、成果につながるオンラインセミナーアプリの選び方と、実務に役立つ具体的なポイントを解説します。 参加者とのつながりを生むオンライン環境の設計 オンラインセミナーにおける最大の課題は、画面越しの距離感です。会場で直接顔を合わせる機会がないからこそ、参加者が「ただ見ているだけ」にならないような仕組みが求められます。適切なツールと機能選びが、参加者のエンゲージメントを左右します。 従来のオフラインセミナーでは、会場の雰囲気や参加者同士の反応が自然と生まれましたが、オンラインではそうした「空気感」が伝わりにくくなります。だからこそ、双方向のコミュニケーション機能や、参加者の行動データを活用した設計が重要になるのです。 エンゲージメントを高

By 阿部 隼也
参加者の質問を効率的に管理!ZoomウェビナーQ&A機能の使い方を徹底解説

参加者の質問を効率的に管理!ZoomウェビナーQ&A機能の使い方を徹底解説

オンラインでのセミナーやイベントが日常化する中で、Zoomウェビナーを活用している企業が増えています。しかし、ウェビナーの開催で意外と頭を悩ませるのが「参加者からの質問をどう管理するか」という点ではないでしょうか。 セミナーが盛り上がり、次々と質問が寄せられるのは嬉しいことです。一方で、質問が多すぎて整理しきれない、どの質問に優先的に答えるべきか判断に迷う、といった課題も生じます。こうした問題を解決するために役立つのが、ZoomウェビナーのQ&A機能です。 本記事では、ZoomウェビナーのQ&A機能の基本的な使い方から、参加者の質問を効率的に管理する実践的なテクニックまで、詳しく解説していきます。 ZoomウェビナーのQ&A機能とは ZoomウェビナーのQ&A機能は、ウェビナー開催中に参加者が質問を投稿し、主催者側が回答を行うための専用機能です。この機能を使うことで、質問と回答がスレッド形式で整理され、効率的なコミュニケーションが可能になります。 チャット機能との違い Zoomには「チャット機能」もあるため、「Q&A機能とチャット機能の違いは何か」と疑問に思う方も多いで

By 阿部 隼也