| 2025/09/07

OpenAI gpt-oss評価で発覚した驚愕の逆スケーリング現象とは?(2508.12461)【論文解説シリーズ】

この動画で学べること

  • GPT-OSSとは何か:OpenAIが公開したMoE構造の20B/120Bモデルの位置づけ。 arXiv

  • 評価の枠組み:一般知識・数理推論・コード生成・多言語理解・会話能力の10ベンチマークで比較する設計(例:MMLU、GSM8K、HumanEval、CEval、PIQA、DialogSum、FinQAなど)。 arXiv

  • 主要結果(ハイライト)

    • いくつかの指標で20Bが120Bを上回る“逆スケーリング”を確認(例:MMLU 69% vs 66%、SCIQ 87% vs 82%、HumanEvalでも20B優位)。 arXiv

    • 効率面の優位:20Bは120Bに比べ、同等精度到達までのエネルギー約2.6×少、必要メモリも大幅に小さいなど、運用コストで有利。 arXiv

    • 得手不得手:コード生成は強め/多言語(特に中国語系)は弱み。 arXiv

  • なぜ起きる?:MoEのルーティング最適化不足や学習設定のミスマッチが示唆され、**“大きければ常に強い”が成り立たない可能性を議論。 arXiv

  • 実務への示唆:コスト・レイテンシを重視する現場では20Bの方が費用対効果で優位なシーンがある。 arXiv

前へ

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

次へ

LLMはどう知識を記憶しているか | Chapter 7, 深層学習