일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- hackthissite
- BOF 원정대
- Javascript
- Linux
- 리눅스
- Scala
- 파이썬
- 경제
- 딥러닝
- hackerschool
- backend
- 챗GPT
- deep learning
- 러닝 스칼라
- 백엔드
- BOF
- webhacking
- c
- mysql
- flask
- hacking
- Python
- php
- c++
- 웹해킹
- Shellcode
- 인공지능
- ChatGPT
- 러닝스칼라
- Web
- Today
- Total
jam 블로그
[자연어처리] 1990년 이후 자연어처리에 쓰인 모델이나 기법들 본문
LSTM (1997): 반복 신경망을 장기 기억을 유지할 수 있도록 확장한 LSTM(Long Short-Term Memory) 모델이 제안됨. [논문: "Long Short-Term Memory", 1997]
Conditional Random Field (2001): 레이블된 시퀀스 데이터를 모델링하는데 사용되는 조건부 랜덤 필드(Conditional Random Field) 모델이 제안됨. [논문: "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", 2001]
Word2Vec (2013): 단어를 밀집 벡터(dense vector)로 표현하는 기법인 Word2Vec이 제안됨. [논문: "Efficient Estimation of Word Representations in Vector Space", 2013]
Sequence to Sequence (Seq2Seq) (2014): 인코더-디코더(encoder-decoder) 구조를 사용하여 시퀀스를 다른 시퀀스로 변환하는 모델인 Seq2Seq가 제안됨. [논문: "Sequence to Sequence Learning with Neural Networks", 2014]
Attention Mechanism (2014): 입력 시퀀스의 각 단어가 출력 시퀀스의 각 단어에 직접 매핑되는 대신, 입력 시퀀스의 모든 단어가 출력의 각 단어에 영향을 주는 방식으로 작동하는 어텐션(attention) 메커니즘이 제안됨. [논문: "Neural Machine Translation by Jointly Learning to Align and Translate", 2014]
Pointer Network (2015): 일반적인 시퀀스-시퀀스(Seq2Seq) 모델의 한계를 극복하기 위해, 출력 시퀀스를 생성할 때 입력 시퀀스의 요소를 가리키는 방식으로 작동하는 포인터(Pointer) 네트워크가 제안됨. [논문: "Pointer Networks", 2015]
Character-level Convolutional Network (2016): 단어 대신 문자 단위의 컨볼루션(Convolution) 신경망을 사용하여 단어나 문장을 분류하는 모델이 제안됨. [논문: "Character-level Convolutional Networks for Text Classification", 2016]
Transformer (2017): 자연어 처리 분야에서 가장 유명한 모델 중 하나인 Transformer가 소개됨. self-attention 기반 신경망 구조인 Transformer는 번역, 요약, 질의응답 등 다양한 자연어 처리 문제에서 좋은 성능을 보이며, 이전 모델들과는 달리 순차적인 계산을 하지 않고 전체 문장을 동시에 처리하는 방식을 채택하여 학습 속도가 빠르고 효과적이다. [논문: "Attention Is All You Need", 2017]
ELMo (2018): 사전 훈련된 언어 모델을 활용해 단어의 다의어성(disambiguation)과 문맥 파악 등을 수행하는 모델로, 이후 BERT와 같은 모델의 발전에 영향을 끼쳤다. [논문: "Deep contextualized word representations", 2018]
BERT (2018): 사전 훈련된 언어 모델 중 가장 대표적인 모델 중 하나로, Transformer 구조를 활용해 사전 학습된 언어 모델을 기반으로 문장 분류, 질의 응답, 개체명 인식 등 다양한 자연어 처리 태스크에서 우수한 성능을 보여주었다. [논문: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 2018]
GPT (2018): OpenAI에서 발표한 Transformer 기반 언어 생성 모델로, 문장을 생성하는 과정에서 이전 단어와 다음 단어의 관계를 고려해 다양한 문장을 생성할 수 있다. [논문: "Improving Language Understanding by Generative Pre-Training", 2018]
XLNet (2019): 자기회귀(autoregressive) 모델의 한계를 극복하기 위해 자기회귀 언어 모델과 오토인코더(autoencoder)를 결합한 모델로, 다양한 자연어 처리 태스크에서 우수한 성능을 보여주며, BERT와 같은 모델의 한계를 극복하고자하는 연구들에 큰 영향을 끼쳤다. [논문: "XLNet: Generalized Autoregressive Pretraining for Language Understanding", 2019]
RoBERTa (2019): BERT와 유사한 구조를 가지고 있으나, 더 많은 데이터를 이용하여 학습시켰습니다. [논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach", 2019]
ALBERT (2019): BERT와 유사한 구조를 가지고 있으나, 파라미터를 줄여 더 경량화시켰습니다. [논문: "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations", 2019]
ELECTRA (2020): BERT와 유사한 구조를 가지고 있으나, 마스킹된 단어를 진짜 단어인 것처럼 학습시켜 더 효과적인 학습을 이루었습니다. [논문: "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators", 2020]
DistilBERT (2019): BERT와 유사한 구조를 가지고 있으나, 더 작은 모델 크기로 학습시켜 더 빠르게 추론할 수 있습니다. [논문: "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter", 2019]
CamemBERT (2019): 프랑스어 자연어 처리를 위해 BERT를 수정하고 학습시켰습니다. [논문: "CamemBERT: a Tasty French Language Model", 2019]
XLM (2019): 다국어 자연어 처리를 위해 BERT를 수정하고 학습시켰습니다. [논문: "Cross-lingual Language Model Pretraining", 2019]
RoBERTa (2019): BERT 모델의 사전 훈련을 개선하고 성능을 향상시킨 RoBERTa가 소개됨. [논문: "RoBERTa: A Robustly Optimized BERT Pretraining Approach", 2019]
T5 (2020): Transformer를 기반으로 하는 다목적 언어 모델로, 텍스트 생성, 번역, 요약, 질의 응답 등 다양한 태스크를 하나의 모델로 수행할 수 있다. [논문: "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", 2020]
GPT-3 (2020): 대규모 transformer 모델을 사용한 언어 생성 모델로 GPT-3가 소개됨. [논문: "Language Models are Few-Shot Learners", 2020]
'인공지능' 카테고리의 다른 글
[강화 학습] 1990년 이후 강화학습 관련 모델이나 기법 (0) | 2023.02.27 |
---|---|
[이미지 처리] 1990년 이후 이미지 관련 모델이나 기법 (0) | 2023.02.26 |
DIALOGPT : Large-Scale Generative Pre-training for Conversational Response Generation (0) | 2020.03.31 |
Extreme Language Model Compression with Optimal Subwords and Shared Projections (0) | 2019.12.18 |
Deep learning natural language processing nlp 1 (0) | 2019.10.20 |