GPT Image 2 vs Nano Banana Pro: 学問分野テスト
化学、生物学、物理学、工学などにわたるGPT Image 2とNano Banana Proの詳細な比較。
GPT Image 2 と Nano Banana Pro の概要
| プロパティ | GPT Image 2 | Nano Banana Pro |
|---|---|---|
| 親会社 | OpenAI | Google (Gemini 3) |
| モードバリアント | テキストから画像、画像から画像 | テキストから画像、画像から画像 |
| アスペクト比 | auto, 1:1, 9:16, 16:9, 4:3, 3:4 | 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9, auto |
| 解像度 | 1K, 2K, 4K | 1K, 2K, 4K |
| ネイティブスタイルヒント | なし(プロンプト駆動) | なし(プロンプト駆動) |
| SciFig 統合 | /models/gpt-image-2 | /models/nano-banana-pro |
GPT Image 2: 詳細重視の図のための OpenAI のフラッグシップ
GPT Image 2 は GPT-4 以来 OpenAI のテキストモデルを定義してきた、長文プロンプトへの執着を継承しています。実用的にはそれは、モデルがプロンプトの各句をチェックリスト項目として扱い、最終図にすべて着地させようと懸命に努めることを意味します。
強み
- プロンプト忠実性 は 24 枚の図にわたって平均 99.2% で、1,500 文字のプロンプトで命名されたほぼすべての要素がレンダリングされた出力に現れました。
- 化学表記 は静かなスーパーパワーです: SN2 反応テストでは遷移状態に二重ダガー記号
‡をレンダリングし、RおよびSの配置をラベル付けし、5 配位炭素を 3 つの水素を持つ三角平面で描き、Eaがラベル付けされた完全なエネルギー図のインセットを含め、求核剤 / 脱離基 / 炭素 / 水素をマップする 4 色凡例を加えました。 - 数式、座標軸、スケールバー は一貫して現れます — ブラックホールの図には
Rs = 2GM/c²が含まれ、メビウスの帯は完全なパラメトリック方程式x(u,v) = (1+v/2·cos(u/2))·cos(u)を示し、ヤングの二重スリット実験は経路差三角形が描かれたd·sin(θ) = m·λを備えていました。

GPT Image 2 — すべての化学慣習がレンダリングされている: 遷移状態の ‡、R/S 注釈、3 つの三角平面の水素を持つ 5 配位炭素、Ea を持つエネルギー図、色分けされた凡例(求核剤 / 脱離基 / 炭素 / 水素)。

Nano Banana Pro — SN2 として認識可能だが、二重ダガー、R/S 注釈、「5 配位」ラベル、要素色凡例がすべて欠けている。出力はクリーンで読みやすいが、化学慣習についてピアレビューに耐える緊密さではない。

GPT Image 2 — フル物理教科書級の処理: 単色光源、円形波面を持つホイヘンス構成、経路差幾何学のインセット、m = 0, ±1, ±2 がラベル付けされた縞模様、位置式 y_m = mλL/d、明示的な「constructive bright」/「destructive dark」分類。

Nano Banana Pro — 幾何学とホイヘンス構成は正確(経路差三角形は柔らかいオレンジ色でハイライトされ視覚的に優美)だが、スクリーン距離 L、constructive/destructive 分類、位置式は図から落とされている。
制限
- 情報密度 が雑然さに溢れることがある。私たちの CRISPR テストパネルはプロンプト忠実性で 95% を獲得しましたが、可読性は 5 段階中 3 にとどまりました — 要求されたラベルはすべて存在したものの、一目で把握するには詰め込みすぎていました。
- 3D レイヤー積層効果なし。 アーキテクチャ図(Transformer など)は平坦に出力され、
Add & Normブロックは Nano Banana Pro の出力で時折見られる 3D 風のレイヤー反復ヒントではなく 2D でレンダリングされます。
最適な科学的ユースケース
- すべてのラベル、方程式、凡例がピアレビュー精査に耐える必要があるジャーナル投稿
- 立体化学、遷移状態、反応機構図を必要とする化学論文
- 視覚的迫力よりも概念的忠実性が勝る抽象数学(トポロジー、多様体)
- 長プロンプトワークフロー(>1,000 文字)— このモデルで特によく機能するプロンプト戦略については、姉妹ガイドの 科学 AI プロンプトのマスター方法 をご覧ください
ヒント
Nano Banana Pro: クリーンな BioRender 風図のための Google の最上位
Nano Banana Pro は、画像合成において Google の Gemini 3 ファミリーで最強のモデルです。GPT Image 2 が仕様にもたれかかるのに対し、Nano Banana Pro はコンポジションにもたれかかります — 出力は、シニアイラストレーターがプロンプトをクリーンな編集用図に蒸留したように感じられます。
強み
- 可読性 は GPT Image 2 の 4.25 に対して平均 5 段階中 4.67 でした。差は一貫しています: すべての図がより呼吸する余地、より大きなラベル、より少ない視覚的積層を持っています。
- 美的洗練 は BioRender 風科学イラスト美学において最高クラスです。マイクロサービスアーキテクチャ図は、注釈付きビジネスイベント(
Order Created、Payment Processed)とともに Kafka トピック、サイドカーパターン、可観測性スタックを捉えました — 静的なアーキテクチャを物語に近い図へと変えました。 - レイヤー積層の可視化 は本物的に優れています。Transformer テストでは
Encoder Stack (Nx)とDecoder Stack (Nx)を視覚的に積層されたレイヤードブロックとしてレンダリングし、エンコーダーからデコーダーへのクロスアテンションパスを追う明示的なK、V、Q矢印を備えていました — GPT Image 2 の出力が完全には到達できなかった構造的直感のレベル。 - プロセスワークフロー図 は、モデルが頻繁に行うデュアルパネルデザインの選択から恩恵を受けます: フォトリソグラフィテストでは、6 ステップそれぞれに対して上に「詳細ビュー」、下に「簡略化された断面図」を描きました — これは IEEE 教科書が実際に半導体プロセスを提示する方法です。

GPT Image 2 — ベンダー豊富な技術リファレンス: 「Kong / Envoy」とラベル付けされた API ゲートウェイ、「Keycloak」とラベル付けされた Auth、明示的な Envoy サイドカーで 5 つすべてのサービスを包む Istio サービスメッシュ、4 つのパーティションで示された Kafka、Loki / Prometheus / Jaeger に分割されたサイド凡例付き可観測性スタック。

Nano Banana Pro — 創造的なナラティブレイヤーを追加: メッセージキューを単に「Kafka Topics」とラベル付けする代わりに、それを通じて流れる実際のビジネスイベント(Order Created、Order Updated、Payment Processed、Update Inventory、Send Notification)に注釈を付けています。アーキテクチャは静的な図から物語に近い図へと変わります。

GPT Image 2 — すべての段階にわたって一貫したレイヤー積層(Si / SiO₂ / フォトレジスト)を持つ単一行 6 パネルシーケンス。コンパクトで明瞭だが、ステップごとに 1 つの断面ビューのみ。

Nano Banana Pro — 同じ 6 ステップだが、それぞれがデュアルパネルとしてレンダリング: 上に詳細ビュー、下に簡略化された断面図。これは IEEE 教科書が実際にフォトリソグラフィを提示する方法。ソフトベイク中の水蒸気記号や「exposed regions (more soluble)」ラベルのようなボーナス詳細により、この出力はベンチマーク中で最高得点の工学図(19/20)となった。
制限
- プロンプト忠実性 は平均 86.1% — GPT Image 2 より約 13 パーセントポイント遅れています。具体的には、プロンプトが長いとき、オプションのラベル、色キー凡例、明示的な数値注釈を落とす傾向があります。
- 化学的厳密性 が最弱領域です。SN2 テストでは、二重ダガーの遷移状態マーカー、
R/S立体化学注釈、4 色要素凡例、明示的な「pentacoordinate transition state」ラベルを省略しました — GPT Image 2 が含めたものすべて。 - 3D 抽象トポロジーが失敗することがある。 私たちのメビウスの帯テストは最も顕著な例です: Nano Banana Pro は メイン の図を半ひねりなしの普通の方向付け可能な円筒としてレンダリングし、実際のメビウスの帯は小さなインセットにのみ含めました — 学生読者を誤解させるほど深刻な概念的エラー。GPT Image 2 はこれを最初の試行で正しく描きました。

GPT Image 2 — 半ひねりがはっきりと見える信頼できる 3D メビウスの帯。「start」と「after 180°」の赤いアリマーカーが片面性を実証; 境界は単一の連続曲線としてレンダリングされる。比較用の円筒は隅のインセットにあり、「two distinct edges」と「two-sided surface」の注釈付き。スコア: 20/20。

Nano Banana Pro — メイン図はメビウスの帯ではなく普通の方向付け可能な円筒。実際のメビウスの帯は小さな隅のインセットに縮小されている。これは図を読むどんな学生でも誤解させるほど深刻な概念的エラー。スコア: 11/20 — 私たちの 2 番目に大きい単一プロンプトの差。
最適な科学的ユースケース
- 密な注釈よりも可読性が勝る学会ポスター、スライドデッキ、教材
- BioRender 風の単純さがジャンル慣習である生物学メカニズム図(シグナル伝達経路、メカニズムマンガ)
- レイヤー積層とデータフロー矢印が重要な ML/CS アーキテクチャ図
- デュアルパネル「詳細 + 簡略化」プレゼンテーションが理解を助けるプロセスワークフロー図
直接対決: 10 分野、24 枚の図
表の前に、引き分けで終わった唯一のテストをご紹介します — 両フラッグシップが同じプロンプトで Nature 誌のカバー品質に到達しました:

GPT Image 2 — 強いボリューム的奥行き、リソスフェア/アセノスフェア温度勾配、マントル対流セルを持つ並置された 3 つの境界タイプ。National Geographic / USGS スタイル。スコア: 19/20。

Nano Banana Pro — 3 つの境界タイプにおいて同等の科学的正確性、生態学的詳細(熱水噴出孔の生物学、硫化物の煙突)と明示的な「Slab Dehydration Zone」注釈のボーナスレベル付き。よりクリーンなラベル間隔。スコア: 19/20。
私たちは 10 分野にわたる 12 のプロンプトを実行し、それぞれを 16:9 / 2K で両モデルで生成し、すべての出力を採点しました。以下が完全な結果です。主観的スコアは次元ごとに 1〜5 のスケール; 合計は 4 つの主観的次元の合計(最大 20)です。
| プロンプト | 分野 | GPT Image 2 忠実性 | NBP 忠実性 | GPT Image 2 合計 | NBP 合計 | 勝者 |
|---|---|---|---|---|---|---|
| EGFR / RAS / MAPK シグナル伝達 | 生医学 | 100% | 80% | 19 | 18 | GPT Image 2 |
| CRISPR-Cas9 切断 | 生医学 | 95% | 98% | 15 | 18 | Nano Banana Pro |
| Transformer アーキテクチャ | CS | 100% | 95% | 16 | 18 | Nano Banana Pro |
| マイクロサービスアーキテクチャ | CS | 100% | 85% | 19 | 18 | GPT Image 2 |
| SN2 置換 | 化学 | 100% | 70% | 20 | 15 | GPT Image 2(決定的) |
| ヤングの二重スリット | 物理学 | 100% | 75% | 19 | 18 | GPT Image 2 |
| フォトリソグラフィプロセス | 工学 | 95% | 100% | 17 | 19 | Nano Banana Pro |
| プレートテクトニクス断面図 | 地球科学 | 100% | 95% | 19 | 19 | 引き分け |
| メビウスの帯トポロジー | 数学 | 100% | 80% | 20 | 11 | GPT Image 2(NBP レンダリングエラー) |
| ブラックホール降着円盤 | 天文学 | 100% | 80% | 19 | 18 | GPT Image 2 |
| 森林食物網 | 生態学 | 100% | 90% | 19 | 18 | GPT Image 2 |
| 海馬 / LTP | 神経科学 | 100% | 85% | 19 | 18 | GPT Image 2 |
/inspiration?model=gpt-image-2 と /inspiration?model=nano-banana-pro で閲覧できます。これらのページのすべての図はこのベンチマーク用に生成されました — プロンプトをコピーし、いずれかのモデルを自分で再実行できます。一般化される 5 つの発見
1. 長プロンプト忠実性は GPT Image 2 のサイン特徴
平均プロンプト長(1,400 文字)と忠実性ギャップ(13.1 パーセントポイント)を比較すると、パターンは一貫していました: プロンプトが長く、より具体的になるほど、Nano Banana Pro はより多くの要素を落とす傾向がありました。これは小さな効果ではありません — 12 のプロンプトにわたって、GPT Image 2 は命名された要素の 99.2% に当たり、Nano Banana Pro は 86.1% に当たりました。

GPT Image 2 — 1,600 文字のプロンプトで命名されたすべての種が着地: オーク、メープル、シダ、草、野花、コケ(生産者); ホワイトテールジカ、カンジキウサギ、リス、野ネズミ、毛虫、ハチ、ハムシ(草食動物); アカギツネ、アメリカワシミミズク、ガータースネーク、鳴き鳥(ウグイス)、トガリネズミ(中位捕食者); ハイイロオオカミ、アカオノスリ、クロクマ(頂点)。分解者は別の右列にカワラタケ / ミミズ / バクテリアとして。エネルギー伝達凡例(100% → 10% → 1% → 0.1%)も完全。

Nano Banana Pro — 同じ 4 つの栄養段階、同じ kcal/m²/year スケール、すべての種が認識可能。しかしカワラタケ / バクテリアの区別を落とし、エネルギー伝達割合凡例を落とし、完全な分解者列ではなく「earthworm」のみをラベル付け。大筋を捉えたが、教科書級の脚注を見逃した。
2. 化学表記は GPT Image 2 の静かなお堀
SN2 機構テストは、私たちの最大の単一プロンプト差(20 vs 15)を生み出しました。GPT Image 2 はすべての標準的な化学慣習をレンダリング — 二重ダガー、部分結合、R/S 立体化学、5 配位幾何、エネルギー図、色分けされた要素凡例。Nano Banana Pro は認識可能な機構を生成しましたが、二重ダガーを欠き、立体化学注釈を省略し、凡例を描きませんでした。
3. 抽象的な 3D トポロジーは Nano Banana Pro を破ることがある
4. BioRender 風の単純さは Nano Banana Pro のホームグラウンド
このモデルの 3 つの勝利(CRISPR-Cas9、Transformer、フォトリソグラフィ)は共通のパターンを共有しています: プロンプトが単純化に報いるということ。CRISPR は 4 ステップの機構です — Nano Banana Pro のクリーンなステップバイステップのビジュアルが GPT Image 2 のより密なバージョンに勝ちました。Transformer は構造図です — Nano Banana Pro の積層レイヤーレンダリングがアーキテクチャ直感をよりよく捉えました。

GPT Image 2 — 要求されたすべての要素が存在: HNH および RuvC ドメインを持つ Cas9、20 nt のターゲット相補配列を持つ sgRNA、ハイライトされた PAM(5'-NGG-3')、R ループ形成、「PAM の 3 nt 上流」の鈍端二本鎖切断、NHEJ と HDR の両方の修復経路。スコア: 15/20 — 各ラベルが密な 3D レンダリングで詰め込まれているため、低い可読性が痛手。

Nano Banana Pro — 同じ 4 ステップ構造、同じ科学的正確性だが、BioRender 風のフラットイラストにはずっと多くの呼吸の余地。各ステップに 1 つの焦点要素。NHEJ「遺伝子ノックアウトのためのインデル」分岐(赤い取り消し線)と HDR「遺伝子修正のためのドナーテンプレート挿入」分岐(緑のチェック)が視覚的に決定的。スコア: 18/20 — ジャンル慣習の勝者。
5. 情報密度 / 可読性のトレードオフが最も深い発見
24 枚の図にわたる平均スコアは、2 つの一貫したプロファイルを露出させます:
- GPT Image 2: 高いプロンプト忠実性(99.2%)、高い出版準備度(4.58)、低い可読性(4.25)
- Nano Banana Pro: 低いプロンプト忠実性(86.1%)、低い出版準備度(3.92)、高い可読性(4.67)、最高の美的スコア(4.83)
両方とも有効な図設計哲学であり、それらは 2 つの異なる最終用途にマップされます。GPT Image 2 はジャーナル記事の密な散文の隣に住む図のために構築されています。Nano Banana Pro は学会ホールで 4 メートル離れたところからそれだけで伝わらなければならない図のために構築されています。

GPT Image 2 — タイトル「Hippocampal Trisynaptic Circuit」、左に EC レイヤー II / V-VI 入出力特異性を持つ解剖学、4 ステップ回路に番号付け(Perforant Path → Mossy Fibers → Schaffer Collaterals → Output Path)、右に明示的な「Resting Membrane Potential ~ -70 mV」を持つズームイン LTP メカニズム、4 つの箇条書き分子説明、隅に色凡例。情報密度がピーク。

Nano Banana Pro — 同じ解剖学、同じ回路、同じ LTP メカニズム。しかし各領域は大きく、ラベルは間隔があり、目はデータフローを追う時間がある。錐体ニューロン細胞体と尖端樹状突起が明示的な視覚表現を得る。トレードオフは EC レイヤー特異性(Layer II vs V-VI)と -70 mV 静止電位 — 両方とも落ちている。結果: 同じ内容、異なる読者体験。
評決: どれを選ぶべきか?
エッジケースには下の決定木を使ってください。異なる科学的作業には異なる最適モデルがあります — あなたの図のタイプを 4 つの一般的な出力先(ピアレビュージャーナル、学会、ウェブ、または「分からない」)の 1 つに合わせ、特定の分野や図ジャンルのサブルールを掘り下げてください。
- ジャーナル投稿(Cell、Nature、Science、PNAS)
- 化学 / 立体化学 / 反応機構 → GPT Image 2(決定的)
- 抽象数学 / トポロジー / 多様体 → GPT Image 2(NBP は概念的に失敗する可能性)
- 長く密でラベルの多いプロンプト → GPT Image 2
- BioRender 風ジャンル慣習での生物学メカニズム → Nano Banana Pro が許容可能、時に好ましい
- スライドデッキ / 学会ポスター / 教材
- デフォルト → Nano Banana Pro(可読性 + 美的優位)
- ML / CS アーキテクチャ → Nano Banana Pro(レイヤー積層ビジュアルが強い)
- 複数ステップのプロセスワークフロー → Nano Banana Pro(デュアルパネルデザイン)
- ブログまたは SNS の図
- デフォルト → Nano Banana Pro(よりクリーン、スクロールに合う)
- カバー品質の図(ハイエンドジャーナルカバー、National Geographic スタイル)
- どちらのモデルも機能; 例ギャラリー をチェックして比較可能な出力を見て、美的フィットで選んでください
- 不確かな場合
- SciFig は両方サポート — それぞれから生成し、並べて、勝者を選んでください。それは本物の人間イラストレーターがどのみち働く方法です。
方法論の舞台裏
私たちは 10 分野にわたる 12 の科学的プロンプトをテストし、16:9 アスペクト比、2K 解像度に固定し、Kie.ai API 経由で直接生成しました(SciFig の本番スタックを支える同じ API サプライヤー)。各プロンプトは 1,100〜1,800 文字の詳細な科学的仕様 — 受容体、キナーゼ、方程式、命名されたドメイン、色の好み。各出力を 6 次元で採点しました: 2 つの客観的(プロンプト忠実性、指示遵守)と明示的なルーブリックを持つ 4 つの主観的(科学的正確性、出版準備度、可読性、美的品質)。各主観的スコアについて推論を記録したので、評価は外部の読者によって再現可能です。
/inspiration?model=gpt-image-2 と /inspiration?model=nano-banana-pro で公開されています。任意のプロンプトを再実行して異なる結果が得られたら、教えてください — それがこの種の評価が時間とともに良くなる方法です。


