Q&A 세션

Attention Is All You Need

Multi-Head Attention이 뭔가요?
Multi-Head Attention은 동일한 Query, Key, Value를 여러 개의 헤드로 병렬 처리해 다양한 표현 공간에서 어텐션을 계산하는 방법입니다. 각 헤드의 출력을 연결(concat)한 뒤 선형 변환해 최종 출력을 냅니다.