연세대학교 DE LAB에서 진행한 발표 자료입니다.
학부생 수준에서 논문을 읽고 정리해보았습니다.
CNN의 Inductive Bias 내용도 추가로 작성하였습니다.
논문: https://arxiv.org/pdf/2010.11929.pdf
<PT 자료>
<정리(발표) 자료>
<참고 자료>
1. [Paper Review] ViT: An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
https://youtu.be/0kgDve_vC1o
2. PR-281: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
https://youtu.be/D72_Cn-XV1g
3. CNN과 이미지가 찰떡궁합인 이유
https://seoilgun.medium.com/cnn%EC%9D%98-stationarity%EC%99%80-locality-610166700979
4. 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
https://www.inflearn.com/course/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%B9%84%EC%A0%84%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8