GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
https://twitter.com/3B1BJP
元チャンネル(英語)
https://www.youtube.com/c/3blue1brown
元動画(英語)
https://www.youtube.com/watch?v=eMlx5fFNoYc&t=795s&pp=ygUVYXR0ZW50aW9uIDNibHVlMWJyb3du
訂正
冒頭でAttention機構は2017年の論文ではじめて登場したと紹介していましたが、正しくは2014年にBahdanauらによって初めて導入されていました。もちろんそれ以前にも、人々がこのアイディアについて実験していたのではないかと思います。コメントのご指摘、ありがとうございます!
Attention Is All You Needは従来のシーケンス処理モデルに使われていた回帰型ニューラルネットワークに対して、文字通りAttentionのみでシーケンス処理を可能にし、また多くのアテンションブロックを使用することでモデルの性能を向上させるアプローチが広く受け入れられるきっかけを作ったと言えるのではないでしょうか。
新チャンネルUfolium
https://www.youtube.com/watch?v=nF7gFRebGTk&pp=ygUHdWZvbGl1bQ%3D%3D
https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUHdWZvbGl1bQ%3D%3D
資料
Andrej Karpathy
https://youtu.be/kCc8FmEb1nY?si=ja2COj-IOYR_gQvt
vcubingx
https://youtu.be/1il-s4mgNdI?si=6v5eNjToNX999kW4
Anthropic
https://transformer-circuits.pub/2021/framework/index.html
https://www.gptandchill.ai/codingproblems
LLMの歴史 Brit Cruise
https://youtu.be/OFS90-FX6pg?si=udNZoCAlpt8Odaoe
https://arxiv.org/pdf/1301.3781
訳注
「シングルヘッドのアテンション」と訳されている部分は、英語では"Single head of attention"、"Single-headed attention"、"single-head attention"などと表現されています。意味としては「アテンションのヘッド1つ分」という使い方もあれば、「シングルヘッド」という「ある種の特徴や仕様を表現する言葉」として使っている場合もあります。日本語訳では前者のように受け取れる部分でもいくつかは後者で訳していて、これはMulti-head Attentionとの対比をより明確にするためにこのように訳しています。
----------------------------------------
英語版翻訳元チャンネルの支援
https://www.patreon.com/3blue1brown
アニメーションはmanimで作られています
https://github.com/3b1b/manim
英語版公式ソーシャルメディア
Webサイト: https://www.3blue1brown.com
Twitter: https://twitter.com/3Blue1Brown
Facebook: https://www.facebook.com/3blue1brown
Reddit: https://www.reddit.com/r/3Blue1Brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
https://vincerubinetti.bandcamp.com/album/the-music-of-3blue1brown
Stream the music on Spotify:
https://open.spotify.com/album/1dVyjwS8FBqXhRunaG5W5u