Self-Attention과 Masked Self-Attention
Self-Attention Self attention에서는 Query, Key, Value가 중요한 키워드가 됩니다. 벡터화된 문장을 합쳐 X로 만들고 가중치 Wq, Wk, Wv와 내적하여 각각 Query와 Key, Value값을 도출합니다. 그럼 이렇게 각 토큰에 해당하는 X, Query, Key, Value값이 나타나게됩니다. 이 값을 Query*$Key^T$해줍니다. 말그대로 키 값을 통해서 각 토큰별로 어느정도 연관성이 있는지 알기위함입니다. 이렇게 스코어를 계산하고, 이 값을 softmax함수에 넣어 총합이 1이되게 나누어줍니다. 연관성이 클 수록 값이 커질 것 입니다. 이렇게 softmax까지 한 뒤에, Value값을 곱하고 더해주면 값이 하나 나오게됩니다. 위의 그림에서 "I"를 통해보면, ..
2021. 4. 15.