논문 리뷰(13)
-
Fastformer: Additive Attention Can Be All You Need
Introduction Transformer is a powerful model However, it is inefficient due to its quadratic compleity to input sequence length Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough FastFormer Efficient Transformer variant based on additive attentino Achieve effective contet modeling in linear complexity Keywords ..
2021.09.27 -
MLP-Mixer: An all-MLP Architecture for Vision
Abstract Computer Vision에서 CNN은 지배적이었다. 최근에 attention-based의 네트워크들(Vision Transformer 등)이 유명해지기 시작했다. 이 논문에서는 MLP-Mixer라는 Architecture를 제안하며, convolution과 attention이 충분히 좋은 성능을 내지만 필요없다는 것을 보인다. MLP-Mixer는 only MLP로만 만들어졌다. MLP-Mixer는 두가지 레이어를 가지고 있다. applied independently to image patches -> mixing per-location features applied across patches -> mixing spatial information 많은 데이터로 학습을 했을 때, imag..
2021.05.17 -
TransGAN: Two Transformers Can Make One Strong GAN
Abstract 최근 transformer의 vision task에서의 잠재력은 classification, detection 그리고 segmentation에서 발견되고 있다. 하지만 아직 GAN에서는 사용되지 않고 있기 때문에 이 논문에서는 GAN을 convolutional network가 없고 오직 transformer만 사용한 architecture를 소개하고자 한다. 기본 모델 구성을 TransGAN으로 부르기로한다. 우리 모델의 가장 큰 모델은 convolutional backbones로 구성된 GAN과의 성능 차이가 얼마 나지 않을 정도로 효과가 좋다. Introduction 그동안 GAN은 아주 좋은 성능과 관심을 받았지만 항상 학습에 있어 안전성이 좋지 못한 문제가 있어왔고, 이를 해결하고..
2021.05.09 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Abstract 기존의 Transformer는 longer-term dependency의 학습에 있어 좋은 잠재력을 보였지만 fixed-length context의 language modeling에서는 제한되었다. 우리는 새로운 neural architecture인 Transformer-XL을 제안한다. 이 방법은 longer-term dependency를 catch 하는 것을 가능케 해줄 뿐만 아니라 context분열 문제도 같이 해결해 줄 수 있다. 결과적으로 Transformer-XL은 기존의 RNN에 비해 80% 더 길게, vanilla Transformer보다 450% 더 긴 cotext에 의존성을 잘 파악할 수 있었으며, sequence 길이가 짧던, 길던 다 좋은 성능을 보였다. 속도 역시 ..
2021.05.06 -
ViT : An Image Is Worth 16 x 16 Words: Transformers for image Recognition at Scale
Abstract Transformer 구조는 현재 NLP의 standard가 되고 있지만 아직 vision task에서는 제한이 있다. Vision에서는 CNN 의존적이다. 하지만 CNN 없이 순수 Transformer만으로 이미지 patch들의 sequence에 적용하여 image classification task에서 좋은 성능을 냈다. 많은 양의 데이터로 pre-training 한 결과 SOTA CNN model과 큰 격차가 나지 않았다. Introduction Transformer 구조는 NLP에서 거의 standard가 되었다. 대부분의 접근 방법은 큰 데이터셋으로 pre-train하고 뒤에 task-specific하게 fine-tune해서 사용하는 방법이다. Transformer의 comput..
2021.04.21 -
GPT-2 : Language Models are Unsupervised Multitask Learners
Abstract Question and Answering, machine translation, reading comprehension, summarization 등 다양한 현재 자연어 처리(이하 NLP) 분야에서는 전형적으로 task별 supervised learning 방법으로 접근한다. 이 논문에서는 어떠한 task에 대해서도 따로 학습하지 않고 예측할 수 있다는 것을 증명했고 수백만개의 website에서 가져온 새로운 dataset인 WebText를 사용했다. 어떤 훈련도 하지 않고 Q&A task를 진행했을 때 55F1 score를 얻을 수 있었다. Language Model(이하 LM)의 능력은 zero-shot task transfer 와 다른 어떤 task에서도 성능 향상을 위해 필수적인 ..
2021.04.15 -
OpenAI GPT-1 : Improving Language Understanding by Generative Pre-training
Abstract unlabeled 된 data는 풍부하지만 task별 label 된 data는 부족해서 늘 정확한 train이 힘들었다. 이 논문에서는 많은 양의 unlabled text를 학습하여 fine-tuning을 통해 specific한 task를 수행할 수 있게 하는 것이 다양한 분야에서의 성능 향상을 가지고 온다고 한다. 이전의 접근법과는 달리 모델 구조는 최소한으로 변화시키면서 효과적으로 transfer를 할 수 있는 구조를 만들었다. 이 구조를 통해 12개의 과제 중 9개에서는 SOTA를 달성하였다. 예시로는 QA에서는 5.7%, 1.5% textual entailment 달성 등이 있다. Introduction NLP 분야에서 raw text에서 효과적으로 학습을 하기 위해서는 super..
2021.04.13 -
ELMo : Embeddings from Language Models
Pre-trained word representations - Pre-trained 된 word representation 자체가 downstream task들에 대한 key component가 된다 - A key component in many neural language understanding models 그렇다면 high quality representation이란 무엇이냐? - Complex characteristics of word use (e.g. syntax and semantics) -> 구문분석, 의미분석 두분야에서 어떻게 사용되는지 모두 파악해야한다 - How these uses vary across linguistic contexts (i.e. to model polysemy) ->..
2021.04.12 -
Bert : Pre-training of Deep Bidirectional Transformers for Language Understanding
Bert란 무엇인가? Introduction 구글에서 개발한 NLP(자연어처리) 사전 훈련 기술 특정 분야에 국한된 기술이 아니라 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 Language Model 11개 이상의 자연어처리 과제에서 BERT가 최첨단 성능을 발휘 지금까지 자연어처리에 활용하였던 앙상블 모델보다 더 좋은 성능을 내고 있어서 많은 관심을 받고 있는 언어모델 Pre-training을 통해 NLP task를 처리하고자 하는 노력은 이전부터 있었다. 크게 두가지 부류로 볼 수 있는데 feature-based, fine-tuning 방식이다. Bert는 이 중 fine-tuning 방식에 초점을 맞춰 학습한 모델이며 각각의 특성은 아래의 그림과 같다. 각 방식에 예시로 나오는 ELMO, O..
2021.04.09 -
Swin Transformer: Hierarchical Vision Transformer using shifted Windows
Abstract Transformer의 등장 이후 NLP에서의 Transformer를 vision으로 domain adaptation하려는 시도를 많이 하지만 여러 문제들이 있어 여전히 challenge 한 문제로 남아있다 (such as Large variations in the scale of visual entities and the high resolution of pixels in imaes compared to words in text) 이를 해결하기 위해 representation이 shifted windows를 통해 계산되는 hierarchical Transformer를 제안 한다. The shifted windowing scheme brings greater efficiency by li..
2021.04.01