본문 바로가기

논문읽기

(9)

[논문읽기] Attention Augmented Convolutional Networks 1. Introduction CNN기법이 많이 쓰이고 있는데, global context를 파악하기에 어려움이 있다. Self-attention 은 hidden units의 weighted average value를 구하는 것인데, pooling 이나 convolutional operation과 다르게 weighted average value는 hidden units의 simularity를 계산하는 것으로 볼 수 있다. 이는 convolution 처럼 location의 영향을 받지 않으므로 parameter수의 인상 없이 Long-range interaction을 수행할 수 있다. 이 논문에서는 self-attention과 convolution을 모두 사용하여 multi-head의 결과와 기존 convo..

[논문읽기] DeepViT: Towards Deeper Vision Transformer 1. abstract can we further improve performance of ViTs by making it deeper, just like CNNs? figure 1. block 개수와의 연관성. block 수가 늘어난다고 무조건 향상하는 것은 아님. 32 layer의 경우 24layer보다도 적은 accuracy를 나타냄. 특정 layer개수를 지나면 값이 수렴하는 모습을 볼 수 있는데, 이를 attention colapse라고 부르기로 함. : ViT가 깊어지면, rich representation을 보기 위한 diverse attention이 필요하지 않게됨. : self-attention의 효과가 적어짐 이를 방지하기 위해 Re-attention 이라는 새로운 메커니즘 제안 : mu..

[논문읽기] 아직 발행X HOW DO VISION TRANSFORMERS WORK? 보호되어 있는 글입니다.

[논문읽기] Repulsive Attention:Rethinking Multi-head Attention as Bayesian Inference 1 Introduction 왜 multi-head 가 single attention에 비해 좋은 성능을 내는지 그 원인이 정확하게 이해되지 않는다. (아마 perspective 의 다양성이라 생각되지만, 확실하지 않음) 여기에서는 stochastic(확률적) setting 에 deterministic attention을 적용시켜 Bayesian 관점에서 multi-head attention을 이해하려 한다. extra trainalble parameter나 다른 규제를적용시키는 게 아니라 multi-head attention의 repulsiveness를 향상시킬 수 있는 새로운 알고리즘을 소개한다. (head의 유사도를 Loss 로 해서 repulsive 구현) Bayesian interpretation..

[논문읽기] Are Sixteen Heads Really Better than One? 1 Introduction training 이후, test를 할 때 대부분의 attention head 를 remove해도 된다. encoder- decoder layer는 pruning에 민감하게 반응, multi head가 무언가 중요한 역할을 함. training 을 통해서 중요하고, 안중요한 head 들이 생김을 알 수 있음. 2 Background: Attention, Multi-headed Attention, and Masking 2.3 Masking Attention Heads 특정 head의 영향을 배제하기 위해 masking을 진행. 그 경우 식은 아래와 같음. 3 Are All Attention Heads Important? 한 개 이상의 head를 remove하면서 변화를 관찰. 3...

[논문읽기] Accelerating Training of Transformer-BasedLanguage Models with Progressive Layer Dropping 1 Introduction NLP 문제를 해결함에 있어서 Transformer 형태를 이용한 방법들이 많은 효과를 보았다. 그러나 self attention과 parallelizable recurrence, 엄청나게 높은 performance의 hardware, pre-training step등에서 상당히 많은 시간이 소모됨을 볼 수 있다. 이 논문에서는 pre-training transformer network의 속도를 향상시키기 위해 training 테크닉과 구조의 변화를 소개한다. layer수를 줄이거나, stochastic depth를 시도해보는 것이 효과가 없었다고 한다. (stochastic Depth란?) -> 네트워크의 길이를 효과적으로 줄이기 위해 무작위로 레이어 전체를 뛰어넘도록 하였다..

[논문읽기] ON THE RELATIONSHIP BETWEEN SELF-ATTENTION AND CONVOLUTIONAL LAYERS 전반적으로 self- attention layer가 CNN을 대신할 수 있는가에 대한 논문. 1. 이론적으로 self-attention layer가 모든 convolutional layer를 나타낼 수 있다는 것을 증명 -> relative positioning encoding을 사용하는 multi-head self-attention layer가 모든 convolutional layer를 표현하는 방법으로 re-parameterize 가능하다는 것을 보이는 것이 목적. 2. 실험을 통해 attention의 첫 몇개의 layer가 query 주변의 pattern을 찾는 것과 비슷한 역할을 한다.? -> 그러니까 attention의 layer가 pattern과 매칭하는 CNN이랑 비슷한 역할을 해줄 수 있다..

[논문 읽기] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 가장 간단한 변조를 통해서 image에 attention network를 적용시키기 위한 시도라고 볼 수 있다. image를 Patch로 나눈뒤에, sequence of linear embedding 을 적용시켜 transformer를 사용하는 방식으로 진행된다. (교수님께서는 너무 단순한 방법으로 진행됐다고 하셨던.. 논문) model 구상은 위와 같습니다. Image를 고정된 크기로 분할하고, position embedding을 더해줍니다. 이렇게 구성된 조각을 Transformer Encoder의 입력단으로 넣어줍니다. 3 METHOD 3.1 VISION TRANSFORMER (VIT) 이미지를 (P,P) 로 분할하여 patch를 생성한 후에, constant latent vector size가 D..

[논문 읽기] Attention is all you need 1 Introduction 이전의 모델들은 hidden layer h(t)를 구하기 위해 input과 h(t-1)값을 참고하는데, 메모리 제약 등으로 인해 긴 문장들에게는 critical 하게 됨. attention mechanism을 이용하면 거리에 상관없이 영향을 구할 수 있음. 이 논문에서는 새로운 모델로 Transformer를 제안하는데, attention mechanism에 의존하여 input과 ouput의 global dependencies를 구해준다. 2. Background Extended Neural GPU [20], ByteNet [15] and ConvS2S -> 거리가 멀어지면 그 관계성을 찾기 힘들다. Self-attention : 서로 떨어져 있는 비슷한 문맥의 단어들을 비슷한 ..

이전 1 다음

티스토리툴바