投影片:https://drive.google.com/file/d/1KeNAu6SAVliWzDPx__OZ23oMioLeHokD/view?usp=sharing
為了能讓第一次學習Transformer的同學可以更容易了解其內容,本課程對 Transformer 的說明進行了部分簡化
19:10 計算關聯性的模型內部運作如下:先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k),再把這兩個向量做內積得到 Attention Weight
20:40 此處省略了文獻上常常提到的 value v
22:30 根據上述Attention Weight的計算過程,Attention Matrix 不一定是對稱的,自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的
23:00 因為 Causal Attention 的原因,Attention Matrix 其實是一個 Triangular Matrix
延伸閱讀
https://youtu.be/n9TlOhRjYoc?si=yaadpbm8w1UgbKkU
https://youtu.be/N6aRv06iv2g?si=FuemBCZt8ChwHOvu