논문 비교

여러 논문을 나란히 비교 분석합니다.

📄Attention Is All You Need

📄BERT: Pre-training of Deep Bidirectional Transformers

항목	Attention Is All You Need	BERT: Pre-training of Deep Bidirectional Transformers
핵심 기여	트랜스포머 아키텍처 제안	양방향 사전학습 모델 제안
방법론	Self-Attention + Positional Encoding	Masked LM + Next Sentence Prediction
주요 결과	WMT EN-DE BLEU 28.4	GLUE 벤치마크 SOTA
한계점	긴 시퀀스 메모리 비용	사전학습 비용이 매우 큼

연구 갭 분석

두 연구 모두 언어 모델의 표현력을 높이는 데 기여하지만, 트랜스포머는 아키텍처 설계에, BERT는 사전학습 방식에 초점을 맞춥니다. 두 접근의 결합은 현대 LLM의 핵심 기반이 됩니다.