Geminiは2023年12月、Googleが発表したマルチモーダルAIです。2024年2月にはGeminiのハイスペックモデルであるGemini Ultraをリリース。GPT-4と比較して、さまざまな点で秀でた結果を残しており、注目が集まっています。
そんななか「ChatGPTと何が違うの?」「どんな特徴があるの?」と気になっている方は多いことでしょう。
そこで今回はGeminiについて、機能、特徴、ChatGPTとの違い、具体的な使い方などを紹介します。無料で使える機能もありますので、記事を読んだうえで業務効率化・日常の調べものに生かしてみてください。
監修者
竹村貴也
株式会社ファンリピートCEO
著書:「ChatGPTによるPythonプログラミング入門. AI駆動開発で実現する社内業務の自動化」
Gemini とは
Geminiとは2023年12月にGoogle社がリリースしたAIです。Google Deepmind、Google Researchなど、社内のAI、機械学習に関する部署をはじめとする共同チームが開発しました。一般的な読み方は「ジェミニ」ですが「ジェミナイ」ともいわれます。
ChatGPTをはじめとするチャット型のUIで使える生成AIツールです。自然言語で対話をすることで、疑問点を解消できます。他のチャット型AIツールと同じく、マルチモーダルに対応しているのが特徴です。
シングルモーダルでは「テキストをテキストで返す」など1つのデータ形式でしかやり取りできません。一方でマルチモーダルとは2つ以上のデータ形式を行き来してアウトプットを出せる機能を指します。
例えば「画像データをテキストデータで説明する」「テキストデータを音声データにする」といった作業が可能です。
Geminiは以下のように進化を遂げてきました。
項目 | 詳細 |
Gemini 1.0をリリース | Gemini 1.0シリーズ(Ultra, Pro, Nano)を発表 |
Gemini Advancedをリリース | Gemini Ultra 1.0が有料プランの「Gemini Advanced」として利用可能になる |
Gemini 1.5シリーズの発表 | Gemini 1.5 ProおよびGemini 1.5 Flashが発表。処理能力が圧倒的に高まる |
なかでも最新モデルはGemini 1.5 Pro・Gemini 1.5 Flashです。これまでを上回る処理速度を実現しました。高速なやりとりにも対応できることから、これまでより幅広い用途で使われることが期待されています。
今後、Geminiは発話を通して自然に会話できるアプリ「Gemini Live」や、カスタマイズして使う対話型AI「Gems」の発表を控えています。GemsはChatGPTの「GPTs」に似た機能となることでしょう。
参考:google社「Gemini 1.5 Pro を Gemini Advanced に搭載」
Geminiが注目される背景
Geminiは「性能の高さ」により注目を集めました。
2023年12月7日に発表されたGoogle Japan blogでは、Geminiのハイスペックモデル「Gemini Ultra」が、32個の指標のうち、30個でChatGPTのLLM「GPT-4」より優れた結果を残したことが発表されました。
例えば、AIモデルの言語理解能力を図るMMLU(Massive Multitask Language Understanding)ではGPT-4が86.4%だったのに対して、Geminiは90.0%を記録しました。これは人間の専門家のレベルも上回っています。
GPT-4が既にハイスペックなLLMとして評価されているなか、さらに高い結果を出したことでGeminiは注目されることになったといえます。
また以下の、発表時の製品紹介動画も話題になりました。
この動画では人間が見せた動画の内容をAIが説明したり、画面をヒントにしてゲームを提案したりしています。のちに、誇張した映像だったことがわかりましたが、創造性の高さに期待値は高まりました。
また、2024年5月には「Gemini 1.5 Pro」が日本国内で利用可能になりました。
上記の性能図で分かる通り、これまでのハイエンドモデルだったGemini 1.0 Ultraと比較すると、特にコーディングや数学的な分野で進化しています。
またChatGPTなどの競合と比較しても「入力できるテキスト量(コンテキストウィンドウ)」や「処理スピード性能」に優位性があり、非常に注目を集めています。
GeminiとChatGPTの違い
Geminiのリリース時の資料は明らかにChatGPTを意識したものでした。両者では学習方法に以下の違いがあります。
Gemini | ChatGPT(GPT-4) | |
学習方法 | テキストや画像を、まとめてトレーニングし、ファインチューニングしている。 | テキストや画像など、データの種類ごとに区別してトレーニングしている。 |
ChatGPTは、モダリティごとに分けてトレーニングしていますが、Geminiはすべてのデータをまとめています。これはGeminiが開発当初からマルチモーダルを前提にデザインされているからです。
なお、ChatGPTもGPT-4搭載以降はマルチモーダルタスクに対応しています。
しかし当初はチャットベースでテキストからテキストを返すツールを想定して設計されていました。その後にマルチモーダルを追加で開発したため、各データの種類ごとに学習するよう設計されています。
一方で最初からマルチモーダルを意識していたGeminiは、ChatGPTと比べて、テキスト、画像、音声、動画など、あらゆるデータを同時に処理でき、より複雑なタスクをこなせるのが強みです。
また月額料金(2024年6月時点)は以下の違いがあります。
Gemini | ChatGPT(GPT-4o) | |
月額利用料 | Gemini Advanced:月額2,900円 | ChatGPT Plus:月額20ドル(約2,600円) |
API利用料の違いは以下です。
モデル | Gemini | ChatGPT(GPT-4o) |
Gemini 1.5 Pro | $3.50 / 1Mトークン(128,000トークン未満)$7.00 / 1Mトークン(128,000トークン以上) | $10.50 / 1Mトークン(128,000トークン未満)$21.00 / 1Mトークン(128,000トークン以上) |
Gemini 1.5 Flash | $0.35 / 1Mトークン(128,000トークンまで)$0.70 / 1Mトークン(128,000トークン以上) | $1.05 / 1Mトークン(128,000トークンまで)$2.10 / 1Mトークン(128,000トークン以上) |
GPT-4o(-2024-05-13) | $5.00 / 1Mトークン(128,000トークン) | $15.00 / 1Mトークン(128,000トークン) |
GPT-4-turbo(-2024-04-09) | $10.00 / 1Mトークン(128,000トークン) | $30.00 / 1Mトークン(128,000トークン) |
GPT-3.5-turbo(-0125) | $0.50 / 1Mトークン(128,000トークン) | $1.50 / 1Mトークン(128,000トークン) |
GPT-4oなど、他社製品と比べると、安くAPIを利用できます。開発者としても、使いやすい価格設定です。
Geminiの特徴
Geminiの特徴を紹介します。他のAIツールと比べてどのような部分が違うのでしょうか。
3つのモデルがある
Geminiには、以下の3つのモデルがあります。
モデル | 説明 |
Gemini Nano | ミニマムなモデルです。Google Pixel 8 Proで利用でき、Android向けアプリがあります。スマホデバイス上のライトなタスクを効率化できます。 |
Gemini 1.5 Pro | 有料版のGemini Advancedに搭載されており、幅広いタスクに対応できます。 |
Gemini 1.5 flash | Google AI Studio、Vertex AIなどのツールを通して利用できます。軽量なので低リソースの環境でも動きます。またコストの低さも魅力です。 |
Gemini 1.5 proのすごさとは?
2024年5月にリリースされたGemini 1.5 proで特筆すべき要素は「コンテキストウィンドウ(読み込めるテキスト量)」の多さです。最新モデルでは、コンテキストウィンドウが100万トークンとなっています。
ChatGPTの最新モデル「GPT-4o」が12万8000トークンですので、Gemini 1.5 Proの処理能力の高さがわかるでしょう。
これにより、従来より長い文書に対応できるようになりました。膨大なPDFデータもすぐ処理したうえで回答をしてくれます。
具体的にいうと、1時間のビデオ、11時間のオーディオ、3万行以上のコード、70万語以上のコードベースに対応できます。これまででは読み取れなかった巨大なコンテンツに対応できるのが魅力です。
Gemini 1.5 flashのすごさとは?
Gemini 1.5 flashも、Gemini 1.5 Proと同党の性能を持つモデルです。Gemini 1.5 Proと比べると軽量なモデルとなっているのが特徴となっています。そのためリソースが少ない環境でも高速に動作できます。
Gemini 1.5 flashのすごさは、高性能を保持しつつ、API利用料がGemini 1.5 Proと比較して10分の1で済む点です。Geminiを利用しつつAIアプリケーションを開発したい企業にとっては、導入しやすいLLMといえます。
Googleならではのアセットを使う
Geminiの魅力の一つが、Googleのアセットを利用できることです。
例えば回答結果に「回答を再確認」というボタンがあり、Google検索の結果を確認することができます。
また「場所に関する質問」をすると、Googleマップが表示されます。
このようにGoogle製品のアセットを使って、より利便性の高い回答を提示できるのが特徴です。
画像生成機能を一部停止中(2月25日現在)
2024年2月現在、Gemini Advancedの画像生成が一時停止となりました。
これはGeminiが人物画を描く際に、性別・人種に箇条に適応しすぎて、ユーザーの要望とミスマッチしてしまったからです。
「Googleのコンプライアンスに対する意識」や「トレーニングデータの偏り」が原因とみられています。Googleは今後のアップデートで、画像生成を戻すことを公言しています。
Geminiで出来ること
具体的にGemini を使ってできることを紹介します。
前提として、ChatGPTをはじめとした他のAIツールにもできるような「文章の作成」「アイディアの壁打ち」などの作業はもちろん可能です。
Pythonデータの生成・チェックなどができる
2月20日のアップデートによって、Pythonコードをユーザーが自由に編集・実行できるようになりました。また自然言語で質問することで、Pythonコードを生成してくれます。
コードを生成した際には「説明」や「使用例」「応用」などの項目を提示してくれるため、検証をしやすいです。
このように生成したコードには「Run Code」と「Edit Code」のボタンがあり、実行・編集できます。
なお「Python Codeのコーディング能力」についてはCPT-4より7%以上も高い数値を記録しています。
Google製品と連携した業務効率化
GeminiとGoogleのプロダクトを連携することができます。
例えば、以下のように受信したGmailを調べることが可能です。そのままGmailにリンク遷移することもできます。
またGoogleドライブと連携しているのが大きな魅力。ドライブ内にあるドキュメントやスプレッドシートファイルについて、作業を依頼できます。
例えば以下のように、ドキュメントの要約をお願いできます。また新たな解釈を加えたり、文章の内容についての感想や示唆を求めることも可能です。
このように普段、私たちが日常的に使っているGoogle製品と連携することで、業務効率化が期待できます。
Geminiの使い方
ではGeminiを利用する方法について紹介します。非常にシンプルなステップで使い始めることができます。
1. 無料版のGeminiを立ち上げる
まずはGoogleアカウントにログインした状態で、Geminiのページに入ります。
すると「Geminiとチャット」というボタンがあるのでクリックします。はじめて使う場合は「利用規約とプライバシーポリシー」に同意する必要があります。
すると開始されますので、チャット欄から質問を投げかけてみましょう。
2. Gemini Advancedに加入する
有料プランであるGemini Advancedに加入したい場合はサイドバーの「ヘルプ」をクリックし「Gemini Advancedについて」を押します。
すると以下のプラン加入画面が出てきますので、中央の「Try for 2 months~」のボタンを押します。
その後、支払い方法(クレジットカード、PayPay、Paypal、ギフトコード)を登録することで、Gemini Advancedへの登録が完了します。
完了したら左上に「Gemini Advanced」と表示されます。
Geminiに関してよくある質問
続いて、Geminiに関して、疑問が生まれがちなポイントについて解説します。
- Geminiで画像生成はできる?
-
2024年6月時点でGeminiの画像生成機能は一部が制限されています。例えば「人を含む画像」は生成されません。これは、以前Geminiが人物画を描く際に、性別・人種に箇条に適応しすぎて、ユーザーの要望とミスマッチしてしまったからです。
また日本語のプロンプトでの画像生成もできません。
ただし人を含まない画像に関しては、英語でプロンプトを書くと生成してくれます。
- Geminiが使えるサービスは?
-
Geminiは2024年6月現在は、Google AI Studio、Vertex AIなどの開発者向けアプリで使えます。「Pixel 8 Pro」上で展開されているAI Coreなどでも利用可能です。
ただし今後、Google製品の様々なサービスで利用できるようになるでしょう。Google Document、Spreadsheet、Google Slideを初めとするGoogle Workspace上の製品にAIが組み込まれることが予想されます。
- Geminiは無料で使える?
-
Geminiは無料でも使えます。ただし無料版ではGemini1.0しか搭載されていません。最新のGemini 1.5 Proは有料版の「Gemini Advanced」に登録することで使えるようになります。
まとめ
今回はGoogle社がリリースしたマルチモーダル型のAIアシスタントツール「Gemini」について、特徴や使い方、利便性などを紹介しました。
GPT-4oと比較しても性能が高いAIツールとなっています。今後はアップデートにより、画像・動画生成機能や、より密なGoogle製品との連携が予想されます。
無料で使えるほか、有料プランも登録後2カ月は0円で使えますので、気になる方はぜひ導入してみてください。
また株式会社ファンリピートではAIを組み込んだシステム開発も可能です。以下の資料では、弊社が各業界のクライアント様に提供したシステムについて紹介しています。ご要望に応じて、生成AIを組み込んだツールも開発・納品できます。
生成AIの機能は従来の業務を大幅に効率化できるツールです。気になる方は無料で資料をダウンロードしてください。