GPT-OSSとは何か:OpenAIが公開したMoE構造の20B/120Bモデルの位置づけ。 arXiv
評価の枠組み:一般知識・数理推論・コード生成・多言語理解・会話能力の10ベンチマークで比較する設計(例:MMLU、GSM8K、HumanEval、CEval、PIQA、DialogSum、FinQAなど)。 arXiv
主要結果(ハイライト):
いくつかの指標で20Bが120Bを上回る“逆スケーリング”を確認(例:MMLU 69% vs 66%、SCIQ 87% vs 82%、HumanEvalでも20B優位)。 arXiv
効率面の優位:20Bは120Bに比べ、同等精度到達までのエネルギー約2.6×少、必要メモリも大幅に小さいなど、運用コストで有利。 arXiv
得手不得手:コード生成は強め/多言語(特に中国語系)は弱み。 arXiv
なぜ起きる?:MoEのルーティング最適化不足や学習設定のミスマッチが示唆され、**“大きければ常に強い”が成り立たない可能性を議論。 arXiv
実務への示唆:コスト・レイテンシを重視する現場では20Bの方が費用対効果で優位なシーンがある。 arXiv