12月19日、新しい推論AIモデル「Gemini 2.0 Flash Thinking」が登場しました。
無料で使える上に、ChatGPT o1 previewよりも賢いとのうわさが。本記事ではGemini 2.0 Flash Thinkingの概要をまとめます。
Gemini 2.0 Flash Thinking とは?
Gemini 2.0 Flash Thinkingは、回答の一部としてモデルが行う「思考プロセス」、つまり、問題を解決するためにどのような手順で考え、どのような情報を参照したのかを、人間が理解できる形で示すようにトレーニングされた推論モデルです。
従来のモデルとの動作原理の違い
Gemini 2.0 Flash Thinking Exp の最大の特徴は、「Flash Thinking(閃光思考)」と呼ばれる新しいコンセプトに基づいている点です。従来のモデルでは、複雑な問い合わせに対して、複数の段階を経て情報を分析し、段階的に結論を導き出すというプロセスが一般的でした。これに対し、「Flash Thinking」では、入力された情報から核心となる要素を瞬時に特定し、ダイレクトに結論を生成するよう設計されています。
これは、従来のモデルが詳細な検討に時間を費やすのに対し、「Flash Thinking」は重要なポイントを迅速に捉え、即座に応答することを可能にするという、動作原理における大きな差異を示しています。
高速処理に特化
「Flash Thinking」のコンセプトを具現化するため、Gemini 2.0 Flash Thinking Exp は、従来のモデルと比較して大幅に軽量化された独自のアーキテクチャを採用しています。具体的には、モデルを構成するパラメータ数を削減し、計算処理における無駄を排除することで効率化を図っています。
この結果、同一の処理を実行する場合でも、より少ない計算資源で完結するため、高速処理が可能となります。この軽量化は、リアルタイムでの応答性能が求められる場面や、モバイルデバイスなど計算資源に制約のある環境での利用において、特に有効です。
特定のタスクにおける効率的な性能向上
Gemini 2.0 Flash Thinking Exp は、広範なタスクへの対応よりも、特定のタスクにおいて最高のパフォーマンスを発揮することに重点を置いた学習戦略を採用しています。大量のデータを用いた汎用的な学習に加え、特定のタスクに最適化されたデータセットと学習手法を用いることで、そのタスクにおける処理速度と精度を極限まで高めています
例えば、特定言語間の翻訳や、専門分野における質問応答といった、用途を限定することで、従来の汎用モデルを上回る性能を発揮することが期待されます。
開発者にとってのメリット
Gemini 2.0 Flash Thinking Exp は、その高速処理能力を開発者が容易に利用できるよう、APIも最適化されています。API設計の簡素化により、開発者は複雑な設定を行うことなく、Gemini 2.0 Flash Thinking Exp の機能を自身のアプリケーションやサービスに組み込むことが可能です。
また、API自体の応答速度も高速であるため、ユーザーからのリクエストに対し、遅延の少ないリアルタイムな処理結果を返す必要があるアプリケーション開発に適しています。具体的な活用例としては、対話型AIやリアルタイム翻訳ツールなどが挙げられます。
Gemini 2.0 Flash Thinking Experimentalを使ってみる
この記事自体も半分くらいはGemini 2.0 Flash Thinking Experimentalに考えさせたのですが、数回やりとりしたらかなり自然な文章に仕上がりました。
最初の出力だとAI感が否めないのですが、「こういう感じにして」とサンプルを提示させたところ、かなり変わった印象に。体感、o1 previewより自然な表現をしてくれますね。
ただ、o1 proと比べると差は感じてしまい、o1 proの方がより思考系のタスクに強いのかなと思います。とはいってもGemini 2.0は無料で使えるかつAPIが公開されているのが最大の強み。コストパフォーマンスの観点で言うとGemini 2.0にかなうAIモデルはいるのでしょうか?
最後に補足しておくと、Google AI Studiで使う場合は以下の制限があります。
- 入力トークンの上限は3万2000個
- テキストと画像の入力のみ
- 出力トークの上限は8000個
- テキストのみの出力
- 検索やコード実行などの組み込みツールの使用なし