jam 블로그

[자연어처리] 1990년 이후 자연어처리에 쓰인 모델이나 기법들 본문

인공지능

[자연어처리] 1990년 이후 자연어처리에 쓰인 모델이나 기법들

kid1412 2023. 2. 25. 21:17
728x90

LSTM (1997): 반복 신경망을 장기 기억을 유지할 수 있도록 확장한 LSTM(Long Short-Term Memory) 모델이 제안됨. [논문: "Long Short-Term Memory", 1997]

 

Conditional Random Field (2001): 레이블된 시퀀스 데이터를 모델링하는데 사용되는 조건부 랜덤 필드(Conditional Random Field) 모델이 제안됨. [논문: "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", 2001]

 

Word2Vec (2013): 단어를 밀집 벡터(dense vector)로 표현하는 기법인 Word2Vec이 제안됨. [논문: "Efficient Estimation of Word Representations in Vector Space", 2013]

 

Sequence to Sequence (Seq2Seq) (2014): 인코더-디코더(encoder-decoder) 구조를 사용하여 시퀀스를 다른 시퀀스로 변환하는 모델인 Seq2Seq가 제안됨. [논문: "Sequence to Sequence Learning with Neural Networks", 2014]

 

Attention Mechanism (2014): 입력 시퀀스의 각 단어가 출력 시퀀스의 각 단어에 직접 매핑되는 대신, 입력 시퀀스의 모든 단어가 출력의 각 단어에 영향을 주는 방식으로 작동하는 어텐션(attention) 메커니즘이 제안됨. [논문: "Neural Machine Translation by Jointly Learning to Align and Translate", 2014]

 

Pointer Network (2015): 일반적인 시퀀스-시퀀스(Seq2Seq) 모델의 한계를 극복하기 위해, 출력 시퀀스를 생성할 때 입력 시퀀스의 요소를 가리키는 방식으로 작동하는 포인터(Pointer) 네트워크가 제안됨. [논문: "Pointer Networks", 2015]

 

Character-level Convolutional Network (2016): 단어 대신 문자 단위의 컨볼루션(Convolution) 신경망을 사용하여 단어나 문장을 분류하는 모델이 제안됨. [논문: "Character-level Convolutional Networks for Text Classification", 2016]

 

Transformer (2017): 자연어 처리 분야에서 가장 유명한 모델 중 하나인 Transformer가 소개됨. self-attention 기반 신경망 구조인 Transformer는 번역, 요약, 질의응답 등 다양한 자연어 처리 문제에서 좋은 성능을 보이며, 이전 모델들과는 달리 순차적인 계산을 하지 않고 전체 문장을 동시에 처리하는 방식을 채택하여 학습 속도가 빠르고 효과적이다. [논문: "Attention Is All You Need", 2017]

 

ELMo (2018): 사전 훈련된 언어 모델을 활용해 단어의 다의어성(disambiguation)과 문맥 파악 등을 수행하는 모델로, 이후 BERT와 같은 모델의 발전에 영향을 끼쳤다. [논문: "Deep contextualized word representations", 2018]

 

BERT (2018): 사전 훈련된 언어 모델 중 가장 대표적인 모델 중 하나로, Transformer 구조를 활용해 사전 학습된 언어 모델을 기반으로 문장 분류, 질의 응답, 개체명 인식 등 다양한 자연어 처리 태스크에서 우수한 성능을 보여주었다. [논문: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 2018]

 

GPT (2018): OpenAI에서 발표한 Transformer 기반 언어 생성 모델로, 문장을 생성하는 과정에서 이전 단어와 다음 단어의 관계를 고려해 다양한 문장을 생성할 수 있다. [논문: "Improving Language Understanding by Generative Pre-Training", 2018]

 

XLNet (2019): 자기회귀(autoregressive) 모델의 한계를 극복하기 위해 자기회귀 언어 모델과 오토인코더(autoencoder)를 결합한 모델로, 다양한 자연어 처리 태스크에서 우수한 성능을 보여주며, BERT와 같은 모델의 한계를 극복하고자하는 연구들에 큰 영향을 끼쳤다. [논문: "XLNet: Generalized Autoregressive Pretraining for Language Understanding", 2019]

 

RoBERTa (2019): BERT와 유사한 구조를 가지고 있으나, 더 많은 데이터를 이용하여 학습시켰습니다. [논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach", 2019]

 

ALBERT (2019): BERT와 유사한 구조를 가지고 있으나, 파라미터를 줄여 더 경량화시켰습니다. [논문: "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations", 2019]

 

ELECTRA (2020): BERT와 유사한 구조를 가지고 있으나, 마스킹된 단어를 진짜 단어인 것처럼 학습시켜 더 효과적인 학습을 이루었습니다. [논문: "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators", 2020]

 

DistilBERT (2019): BERT와 유사한 구조를 가지고 있으나, 더 작은 모델 크기로 학습시켜 더 빠르게 추론할 수 있습니다. [논문: "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter", 2019]

 

CamemBERT (2019): 프랑스어 자연어 처리를 위해 BERT를 수정하고 학습시켰습니다. [논문: "CamemBERT: a Tasty French Language Model", 2019]

 

XLM (2019): 다국어 자연어 처리를 위해 BERT를 수정하고 학습시켰습니다. [논문: "Cross-lingual Language Model Pretraining", 2019]

 

RoBERTa (2019): BERT 모델의 사전 훈련을 개선하고 성능을 향상시킨 RoBERTa가 소개됨. [논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach", 2019]

 

T5 (2020): Transformer를 기반으로 하는 다목적 언어 모델로, 텍스트 생성, 번역, 요약, 질의 응답 등 다양한 태스크를 하나의 모델로 수행할 수 있다. [논문: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", 2020]

 

GPT-3 (2020): 대규모 transformer 모델을 사용한 언어 생성 모델로 GPT-3가 소개됨. [논문: "Language Models are Few-Shot Learners", 2020]

Comments