논문 리뷰 – Vision Transformer

연세대학교 DE LAB에서 진행한 발표 자료입니다.

학부생 수준에서 논문을 읽고 정리해보았습니다.

CNN의 Inductive Bias 내용도 추가로 작성하였습니다.

논문: https://arxiv.org/pdf/2010.11929.pdf

<PT 자료>

Vision Transformer Download

<정리(발표) 자료>

Vision Transformer 발표 설명 Download

<참고 자료>

1. [Paper Review] ViT: An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
https://youtu.be/0kgDve_vC1o

2. PR-281: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
https://youtu.be/D72_Cn-XV1g

3. CNN과 이미지가 찰떡궁합인 이유
https://seoilgun.medium.com/cnn%EC%9D%98-stationarity%EC%99%80-locality-610166700979

SHA Computing