논문 비교
여러 논문을 나란히 비교 분석합니다.
📄Attention Is All You Need
📄BERT: Pre-training of Deep Bidirectional Transformers
| 항목 | Attention Is All You Need | BERT: Pre-training of Deep Bidirectional Transformers |
|---|---|---|
| 핵심 기여 | 트랜스포머 아키텍처 제안 | 양방향 사전학습 모델 제안 |
| 방법론 | Self-Attention + Positional Encoding | Masked LM + Next Sentence Prediction |
| 주요 결과 | WMT EN-DE BLEU 28.4 | GLUE 벤치마크 SOTA |
| 한계점 | 긴 시퀀스 메모리 비용 | 사전학습 비용이 매우 큼 |
연구 갭 분석
두 연구 모두 언어 모델의 표현력을 높이는 데 기여하지만, 트랜스포머는 아키텍처 설계에, BERT는 사전학습 방식에 초점을 맞춥니다. 두 접근의 결합은 현대 LLM의 핵심 기반이 됩니다.