| 2025/09/07

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

この動画で学べること

  • Transformerの目的(次単語予測)と“単語→ベクトル(埋め込み)”の復習。3Blue1Brown

  • アテンションの計算手順:Q・Kのドット積→スケーリング→Softmax→Vの重み付き和、という一連の流れ。視覚化で“重み”の意味が腑に落ちます。 3Blue1Brown

  • マルチヘッドの役割(異なる視点で同時に文脈を捉える)と、アテンションマップの見方。

  • 文脈依存の意味解消(例:「mole」)が、アテンションでどう実現されるか。

  • (触りだけ)残差接続や正規化など、ブロック周辺の要素の位置づけ。

前へ

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

次へ

LLMはどう知識を記憶しているか | Chapter 7, 深層学習