【Genie】Google DeepMindが画像1枚からゲームを作れるAIを開発!
Google DeepMindは、画像1枚あれば無限に世界が広がる操作可能なゲームを作りだせるAIを開発しました。
その名も「Genie(ジーニー)」。
Genieは20万時間にも及ぶインターネット上のゲーム動画から訓練され、110億のパラメーターを持つAIモデルです。
OpenAIのSoraと同様に物理法則を理解しながら、ゲーム世界を作り出すことができることから「世界基盤モデル(Foundation World Model)」と呼ばれています。
画像1枚から、物体や起きている出来事を認識してゲーム世界を創造します。
画像はAIが作る合成画像でも、自分で撮った写真でも構いません。ノートの片隅に描いた落書きからでもゲームを作り出すことができるようです。
(引用元:Genieテクニカルレポート)
↑実際にGenieによって作り出されたゲーム。Genieは2Dのスクローリングゲームを主として作れます。
Genieが作り出す「ホール・ニュー・ワールド」
Genieが作り出すゲームの特徴は、ゲーム世界に制限がなくどこまでもキャラクターが進むことができる点です。
多くのゲームの世界には端があり、行ける場所には限りがあります。
例えば、「スーパーマリオワールド」や「ゼルダの伝説」の世界にも端は存在し、プレイヤーが行ける場所には制限があります。
しかし、Genieが作り出す世界には、その端がなくどこまでもプレイヤーは進むことができます。イメージとしては、マインクラフトに近いでしょう。
そんなゲーム世界が作れる理由は、最先端の「時空間トランスフォーマー(Spatiotemporal Transformer)」と呼ばれる動画生成のAIモデルにあります。
アノテーションやラベル付けが行われていないのにも関わらず、次にくるであろうフレームを予測して無限のゲーム世界をつくり出しているのです。
(引用元:Genieテクニカルレポート)
↑Genieを使うことによって、文章、ノートの落書き、現実世界の写真をプロンプトとして、ゲームの世界を作り出すことができます。
Genieはどのようにゲームを生成しているのか?
Genieがゲーム世界を創造するのには大きく分けて5つのステップがあります。
- Genieに読み込ませる動画を準備する。
- 読み込んだ動画の重要なフレームのみをビデオトークナイザーでトークン化する。
- 動画内のジャンプや移動などの8つのアクションを潜在的アクションモデルで特定する。
- ダイナミックモデルで次に起きる映像を推測し、動画化する。
- Genieが動画を出力し、一連のスムーズなゲームができる。
一連のプロセスを表したのが下の図です。下でわかりやすく図の仕組みを説明します。

(引用元:Genieテクニカルレポート)
Genieの仕組みはYoutuberの編集作業に近い
Genieのゲーム生成の仕組みは、YouTuberが動画を作る作業に似ています。
YouTuberが動画をアップロードするのにも、Genieのように5つのステップが必要です。
- Youtuberが動画を撮影する。
- 動画で面白いところを切り抜いて編集する。
- そのシーンの面白さを伝えるために、字幕や音声をつける。
- 視聴者が笑うところを推測して、重要なシーンをつなぎ合わせる。
- Youtubeに動画を投稿して、視聴者に動画を観てもらう。
まず、上のステップの1で言われている通りに、Youtuberは動画を撮影して動画を準備する必要があります。Genieでも訓練ようの動画を準備する必要がありました。
2のステップでは、Youtuberが撮影した動画で重要な部分を切り抜きます。いわゆる編集の作業です。
撮影した動画すべてを使うと長尺で面白くない動画になってしまいます。そのため、動画を面白くするために編集を行うのです。
Genieではこの動画をトークン化(切り抜き作業)をビデオトークナイザーと呼ばれるもので行います。
読み込んだ映像の中で、ゲームを再現するのに必要な部分を自動で判断し、トークン化するのです。
3のステップでは、Youtuberが動画に字幕や音声をつけます。切り抜いた動画だけでは、動画内で何が起きているのかわかりません。そのため、切り抜いた動画の面白さを伝えるために音声をつけます。
Genie内では、潜在的アクションモデルがこの作業を行います。
例えば、キャラクターが地面にいる時のフレームと、キャラクターが空中にいる時のフレームを2つを判断し、「ジャンプ」をしていると認識することです。
4つ目のステップでは、Youtuberは視聴者が笑うところを推測して、今までの動画をつなぎ合わせます。
Youtuberの感性が視聴者に近ければ近いほど、1つの面白い動画が出来上がるのです。
Genie内では、ダイナミックモデルというプログラムが動きます。ビデオトークナイザーでトークン化した動画と潜在的アクションモデルで意味づけした2つをもとに、次に起きることを推測して出力するのです。
5つ目の最後のステップでは、Youtuberは出来た動画をYoutubeに投稿し、視聴者が動画を見て楽しんでもらいます。
Genie内でも動画が出力され、ユーザーがゲームを楽しむことができます。
データの質が良いほど、良いゲームが生成される
今回、Google DeepMindがGenieを作ってわかったことは「質の高いデータを使って訓練することで、質の高いゲームが生成される」ということです。
Google DeepMindはクラシファイアというデータの分類器を使って、質の高いデータをGenieに読み込ませました。
このことから、クラシファイア(データ分類器)の質が良ければよいほど良いデータが集められ、良いゲームができるという結論に至りました。
また、データに加えて「パラメーター数とバッチサイズを増やしていくにつれてより高いクオリティのゲームが作れる」ということもわかりました。
パラメーター数とは、AIが学習するためのデータの量のことです。一方、バッチサイズとはAIが一回の学習に使えるデータの量のことです。
こちらのAIの説明を数学のテスト勉強をする高校生に例えるなら、パラメーター数とは、高校生が理解した公式の数です。
高校生が理解した公式が多ければ多いほど、難しい問題を解くことができます。
Genieもパラメーターが多いほど高いパフォーマンスを発揮できるようです。
またバッチサイズとは、一日に勉強できる量です。一日に1章勉強した方が良いのか、参考書を一冊勉強できるのか、高校生のキャパシティによって決まります。
今回のGenieについては、一回に学習できるデータが多ければ多いほど、クオリティの高いゲームが生成できるということでした。
その結果を示したのが下のグラフになります。データのクオリティを上げることに加え、AIの計算能力を上げることで、生成するゲームのクオリティを高めることができるということがわかりました。

(引用元:Genieテクニカルレポート)
Genieが生成AIをどう変えるのか
Genieの最も革新的な部分は「ユーザーが操作可能な世界を作り出すこと」にあります。
今までChatGPT、Gemini、Soraなど数多くの生成AIが誕生してきましたが、リアルタイムで画像や映像を操作できるAIは未だに少ないです。
もしも、Genieのようにリアルタイムで物体を操作できるゲームのようなAIがでてくるとしたら、自分が主人公になったような体験ができる没入系のゲームや映画が増えていくと考えられます。
今はまだ、1FPS(フレーム/秒)の映像しか生成することができませんが、テクノロジーの進歩に応じてGenieが生成できるゲームも30FPS、60FPSと増えていくことでしょう。
そうなると、VRヘッドセットなどを使って、本物そっくりな仮想空間が作り出せるようになるかもしれませんね。
マトリックスの世界が現実味を帯びてきているようです。
参考文献
・🧞 Genie: Generative Interactive Environments
・Genie: Generative Interactive Environments
・Google’s Genie game maker is what happens when AI watches 30K hrs of video games