【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Hung-yi Lee 59,826 lượt xem 11 months ago

Video Not Working? Fix It Now

投影片：https://drive.google.com/file/d/1KeNAu6SAVliWzDPx__OZ23oMioLeHokD/view?usp=sharing

為了能讓第一次學習Transformer的同學可以更容易了解其內容，本課程對 Transformer 的說明進行了部分簡化

19:10 計算關聯性的模型內部運作如下：先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k)，再把這兩個向量做內積得到 Attention Weight

20:40 此處省略了文獻上常常提到的 value v

22:30 根據上述Attention Weight的計算過程，Attention Matrix 不一定是對稱的，自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的

23:00 因為 Causal Attention 的原因，Attention Matrix 其實是一個 Triangular Matrix

延伸閱讀
https://youtu.be/n9TlOhRjYoc?si=yaadpbm8w1UgbKkU
https://youtu.be/N6aRv06iv2g?si=FuemBCZt8ChwHOvu

Comment