전체 글 (21) 썸네일형 리스트형 Mobilnet http://melonicedlatte.com/machinelearning/2019/11/01/212800.html [논문읽기] 아직 발행X HOW DO VISION TRANSFORMERS WORK? 보호되어 있는 글입니다. [논문읽기] Repulsive Attention:Rethinking Multi-head Attention as Bayesian Inference 1 Introduction 왜 multi-head 가 single attention에 비해 좋은 성능을 내는지 그 원인이 정확하게 이해되지 않는다. (아마 perspective 의 다양성이라 생각되지만, 확실하지 않음) 여기에서는 stochastic(확률적) setting 에 deterministic attention을 적용시켜 Bayesian 관점에서 multi-head attention을 이해하려 한다. extra trainalble parameter나 다른 규제를적용시키는 게 아니라 multi-head attention의 repulsiveness를 향상시킬 수 있는 새로운 알고리즘을 소개한다. (head의 유사도를 Loss 로 해서 repulsive 구현) Bayesian interpretation.. 이전 1 2 3 4 5 ··· 7 다음