【Googleの最先端AIモデル】Gemmaとは?Geminiとの違いも解説
Googleから誰でも利用可能なオープンソースAIモデルがリリースされました。
その名も「Gemma」!(発音は「ジェンマ」)
「Gemma」とはイタリア語から派生した言葉で、日本語で「宝石」や「ジュエリー」といった意味があるようです。大手テック企業が考えたとは思えないほどロマンチックな名前ですね笑
今回は、Googleの最先端AIモデル、Gemmaについての説明とGemmaで出来ることについて解説していきたいと思います。
Gemmaはこの記事執筆時点で Gemma 3 というものが最新モデルで、どんどん進化しています。
1.「Gemma」とは何か?
「Gemma」とは、2024年2月21日にGoogleからリリースされたAIモデルです。メタ社(旧フェイスブック)やMistral AIといった他社のAIモデルに対抗して作られました。
「Gemma」は「Gemini」と比べると小さなサイズの言語モデルで、グーグルの子会社であるディープマインド社とグーグルのチームによって開発されました。
「Gemini」がChatGPTに対抗してつくられた大きなAIモデルの一方、「Gemma」はチャットボットや文章生成などの特定のタスクに向いているモデルです。
Googleがリリースした大規模言語モデルの「Gemini」と同様の製法で作られており、6兆トークンものテキストによって事前学習とファインチューニングを経て、文章生成が強みとなっています。
学習の際のAIチップにはGPU(Graphical Processing Unit)とGoogle独自のTPU(Tensor Processing Unit)が使われています。
2.「Gemini」と何が違うの?
Geminiとの一番の大きな違いは、Gemmaは「オープンソースAIモデル」といって一般公開されているため、誰でも無料で使うことができる点です。
Geminiは「クローズドAIモデル」と呼ばれており、AIモデルが一般公開されていません。
そのため、個人の開発者や他社企業はGeminiのAIモデルを自由に使うことはできないのです。
そのほかに「Gemma」はGeminiと違い、英語をメインとしたデータで訓練されているので、英語以外の言語があまり得意ではないとテクニカルレポートには書かれていました。
しかし、実際に日本語でGemmaに話しかけたプログラマーの方もいるようで、その方によれば流暢な日本語が返ってきたそうです。
また、「Gemma」は主に文書、数学、コーディングを扱うデータをもとに作られています。
ただ、Geminiのようにマルチモーダル(テキスト、音声、画像などの複数のメディアの情報処理)ではないため、マルチモーダルAIと比べた場合性能に差がでると思われます。
3. Gemmaには「2B」と「7B」の2つのサイズのモデルがある
Gemmaには2つのサイズのモデルがあり、「2B」と「7B」というサイズに分かれています。
このサイズというのは、「パラメーターの数」のことです。パラメーターとはAIが言葉を理解したり、生成したりするのに必要な数値です。
「パラメーター」について簡単に説明すると、赤ちゃんは「バナナ」と「りんご」の違いを学ぶときに似ています。赤ちゃんはそれぞれの特徴を色、形、味などで覚えるのです。
AIも赤ちゃんに似たように特徴をパラメーターという数値で理解するのです。
「Gemma 2B」には20億のパラメーターがあり、「Gamma 7B」には70億のパラメーターがあるのです。
この「B」というのは英語で「Billion=10億」という意味になります。つまり、2Bは20億となり7Bだと70億になるのです。
ちなみにChatGPT-3.5は3550億パラメーターで、GPT-4.0だと約1兆、Geminiも1兆に近い数だと言われています。公式には発表されていないので、あくまで推測です。
ChatGPTやGeminiなどの大規模言語モデルと比べると「Gemma」のモデルはかなり小さいことがわかります。
4. Geminiのパラメーター数は少ないからといって侮るべからず
ChatGPTやGeminiのパラメータ数が多いけど、Geminiは少なくて残念…と考える方もいるかと思います。
私も子供のとき、アイスクリームの量が他の兄弟よりも少なかったら悲しい気もちになりました。
しかし、アイスクリームとは違って、パラメーターが少ないから仕事ができないことにはなりません。
確かにパラメーターに数が多いとChatGPT-4やGeminiのように高い性能を発揮できることが多いです。
しかし、パラメーターの数が多いと処理が重くなったりして、AIが思い通り動かなくなったりします。
また、数が多い場合、質の良いデータを集めないとバイアスが大きくなることがあるので、良い点だらけとは言えないのです。
イメージでは、ハーゲンダッツは値段が高くてカロリーもあって食べると太る。
しかし、ガリガリくんの方はさっぱりで美味しいし太りにくいから自分に合ってる!みたいな感じかもしれません。
5. 実際に「Gemma」のパフォーマンスをメタ社のLlama-2と比べてみる
下の表がGoogleが出した「Gemma」のパフォーマンスを、メタ社のだしているAIモデルLlama-2とMistral AIというモデルを比べたものです。
これらのAIは「Gemma」とパラメーターの数が近いオープンソース化されたAIモデルを使っています。
一番右の緑色の棒が「Gemma」で左の2本の青と赤の棒が「Llama-2」、黄色が「Mistral AI」です。

(引用元:Gemma: Introducing new state-of-the-art open models)
この表では、4つの指標でAIのパフォーマンスを比べています。左から「質問への返答能力」、「推論能力」、「数学/科学」、「プログラミング」です。
質問への返答能力の項目では、LLaMA 2(13B)がかすかにほかのモデルよりも高いスコアを出しています。
しかし、他の項目においては、Googleの「Gemma」が一番高い成績をつけました。
一般的にはパラメーター数が多いほどパフォーマンスが高いとも言われていますが、AIモデルによってはパラーメーター数が低いものでもパフォーマンスが高くなることがありえるのです。
今回の結果では、Gemmaが相対的に良いパフォーマンスを出せることがわかりました。
6.「Gemma」が出来ること
Gemmaは「主要ベンチマークで大型AIモデルを上回る性能」を持っているとGoogleが公式サイトに書いています。
AI開発を考えている企業にとっては、Mistral AIやLLaMAよりも「Gemma」を選ぶ理由になるかもしれません。
主にはチャットボットをつくったり、AIアプリを作るというのが用途になりそうです。
Gemmaには「AIツールキット」と呼ばれる開発者をサポートするソフトウェアがついてきます。
開発者が独自にガイドラインを作れたり、使ってはいけない言葉の設定、デバッグをサポートしてくれるのでぜひ活用していきましょう。
また、クラウド上で動かすだけではなく、ラップトップやデスクトップ内でGemmaを動かすことができるそうなので、アクセス性の良さやコスト削減にもつながりそうです。
組織の人数やユーザー数にかかわらず、Gemma 2B / 7Bともに、商用利用が可能ということも覚えておきたいですね!
7.「Gemma」が出来ないこと
Gemmaは、社会通念に反することができません。
例えば、爆弾や拳銃の作り方といった人を傷つけるようなことをサポートすることができないことが明記されています。
モデルには危険な情報を排除するフィルターをかけたり、セキュリティー上の問題がないか専門チームとの密なやり取りをしてはいるようです。
しかし、オープンモデルということから、危険な使い方をしようとする人がいることも確かでしょう。
オープンソース化する場合には安全に十分に注意する必要があり、Googleはこれからも悪質な使い方には警戒を強めていくようです。
8. 最後に
これからはAIモデルのオープンソース化もどんどん進んでいくと思われます。
噂によるとOpenAIもオープンソース用のAIモデルを作っているようで、AIモデル戦国時代に突入しそうな勢いです。
こんなときに大事なのは、しっかりとそのモデルの良い点と悪い点を見定めて、自分のプロジェクトに合ったモデルを選ぶことが重要です。
参考文献
・Gemma: Introducing new state-of-the-art open models
・google/gemma-2b-it
・Google Introduces Gemma, a New Open Source AI Model for Developers