논문 리뷰 – Vision Transformer

연세대학교 DE LAB에서 진행한 발표 자료입니다.

학부생 수준에서 논문을 읽고 정리해보았습니다.

CNN의 Inductive Bias 내용도 추가로 작성하였습니다.

논문: https://arxiv.org/pdf/2010.11929.pdf

<PT 자료>

<정리(발표) 자료>

<참고 자료>

1. [Paper Review] ViT: An Image is Worth 16×16 Words:Transformers for Image Recognition at Scale
https://youtu.be/0kgDve_vC1o

2. PR-281: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
https://youtu.be/D72_Cn-XV1g

3. CNN과 이미지가 찰떡궁합인 이유
https://seoilgun.medium.com/cnn%EC%9D%98-stationarity%EC%99%80-locality-610166700979

4. 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
https://www.inflearn.com/course/%EB%94%A5%EB%9F%AC%EB%8B%9D-%EB%B9%84%EC%A0%84%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8

Leave a Reply

Your email address will not be published. Required fields are marked *