전체 글 (22) 썸네일형 리스트형 [논문읽기] DeepViT: Towards Deeper Vision Transformer 1. abstract can we further improve performance of ViTs by making it deeper, just like CNNs? figure 1. block 개수와의 연관성. block 수가 늘어난다고 무조건 향상하는 것은 아님. 32 layer의 경우 24layer보다도 적은 accuracy를 나타냄. 특정 layer개수를 지나면 값이 수렴하는 모습을 볼 수 있는데, 이를 attention colapse라고 부르기로 함. : ViT가 깊어지면, rich representation을 보기 위한 diverse attention이 필요하지 않게됨. : self-attention의 효과가 적어짐 이를 방지하기 위해 Re-attention 이라는 새로운 메커니즘 제안 : mu.. Mobilnet http://melonicedlatte.com/machinelearning/2019/11/01/212800.html [논문읽기] 아직 발행X HOW DO VISION TRANSFORMERS WORK? 보호되어 있는 글입니다. 이전 1 2 3 4 5 ··· 8 다음