본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

jam 블로그

Deep learning one hot encoding 본문

인공지능

Deep learning one hot encoding

jmkim87 2019. 10. 20. 23:05

728x90

원-핫 인코딩

각 단어의 인덱스를 정한 후 각 단어의 벡터를 각 단어에 해당하는 인덱스의 값을 1로 표현하는 방법

장점 :

간단하고 이애하기 쉽다.

단점 :

단어 수가 많아지면 많아질수록 벡터의 크기가 커지기 때문에 공간이 많이 사용되고 비효율적.
단어의 의미나 특성 같은 것들이 전혀 표현되지 않는 것.

코딩 순서

형태소 분석기로 문장들을 자릅니다.
자른 문장들을 합쳐서 하나의 사전으로 만듭니다.
사전에 등록된 단어의 인덱스를 1로 바꾸고 나머지는 0으로 넣은 배열을 출력합니다.

단점 타파

카운터 기반 방법

특이값 분해 (Singular Value Decomposition, SVD)
잠재의미분석 (Latent Semantic Analysis, LSA)
Hyperspace Analogue to Language (HAL)
Hellinger PCA(Principal Component Analysis)

예측 방법

Word2Vec
NNLM(Neural Network Language Model)
RNNLM(Recurrent Neural Network Language Model)

참고문헌

텐서플로와 머신러닝으로 시작하는 자연어 처리: 로지스틱 회귀부터 프랜스포머 챗봇까지 (http://www.yes24.com/Product/Goods/69334316?Acode=101)

'인공지능' 카테고리의 다른 글

DIALOGPT : Large-Scale Generative Pre-training for Conversational Response Generation (0)	2020.03.31
Extreme Language Model Compression with Optimal Subwords and Shared Projections (0)	2019.12.18
Deep learning natural language processing nlp 1 (0)	2019.10.20
Artificial Neural Network 2 (0)	2019.10.20
Artificial Neural Network 1 (0)	2019.10.20

'인공지능' Related Articles

more

Comments

jam 블로그 다양한 것을 공부해보고파 하는 개발자입니다.

티스토리툴바