【Gemini 3は超難問テストで最高性能】今井翔太「ChatGPTユーザーを奪い取る」/サム・アルトマンはXで祝福→やせ我慢?/Googleは“天才科学者AI”で本領発揮【1on1 Tech】
この動画から学べること
本動画では、Googleの最新AIモデル「Gemini 3.0」の登場と、それがAI業界にもたらす影響について、専門家であるAI研究者の今井翔太さんと共に深く掘り下げて解説しています。
1. Gemini 3.0の驚異的な実力とベンチマーク結果:
標準的なベンチマークはもちろん、内部的な俺々ベンチマークでも「普通にすごい」と評価されている点。
超難問テスト「Humanity's Last Exam (HLP)」相当すごい数字を記録したこと。これは非常に賢い人間でも5%もいかないほどの難易度です。
科学知識に関するGPA Diamondベンチマークで90%を超え、この領域がほぼ天井に到達(サチった)と見なされていること。
複雑な画像認識テスト「ScreenSpot Pro」において、競合を圧倒的にぶっちぎり、Googleの強みである画像検索やGoogle Lensの技術が生きている点。
自販機経営タスク「Vending Bench 2」など、エージェンティックで長期的なタスク(365日の経営)において、他のモデルを上回る利益を上げた点。
2. 革新的な機能と応用例:
コード生成能力の進化: 2.5 Proでは成立しなかった簡単なゲーム作成のプロンプトが、3.0では完全にロジックが破綻せず、立派なゲームとして成立したデモンストレーション。
生成UI(ジェネレーティブUI): テキスト指示だけで、ウェブサイト風のレイアウトや、入力に応じて再計算が可能な電卓のようなユーザーインターフェースを自動で作成する機能。
強力なエージェント機能: Gmailやカレンダー、Google DriveといったGoogleのサービスと密に統合され、「メールの受信トレイを整理してくれ」といった複雑なタスクを実行できる点。ツールの提供者がオフィシャルなエージェントを提供することの信頼性。
3. 競争と未来の展望:
OpenAIのサム・アルトマン氏がGemini 3.0を祝福したツイートについて、「余裕の現れ」か「焦りの現れ」かという考察。
Googleが「匂わせ」のような熱狂を作るゲームを覚えてきたことで、ChatGPTユーザーを奪う可能性が十分にあるという見解。
Google DeepMindが推進するAI for Scienceへの応用。特に、国際数学オリンピックで金メダルを取るレベルのモデル(DeepMindのDeepThink)がGemini 3.0に相当する可能性があること。
AlphaFoldに代表される科学推進への貢献 や、研究の仮説生成から実験、論文化までを自動化する「AI Co-scientist」の開発競争。