Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- hacking
- 챗GPT
- 파이썬
- mysql
- 경제
- Web
- deep learning
- Shellcode
- 러닝 스칼라
- ChatGPT
- 인공지능
- 러닝스칼라
- 딥러닝
- Linux
- hackerschool
- c
- hackthissite
- c++
- 백엔드
- 리눅스
- backend
- 웹해킹
- Python
- Javascript
- flask
- webhacking
- Scala
- BOF 원정대
- php
- BOF
Archives
- Today
- Total
jam 블로그
Deep learning one hot encoding 본문
728x90
원-핫 인코딩
각 단어의 인덱스를 정한 후 각 단어의 벡터를 각 단어에 해당하는 인덱스의 값을 1로 표현하는 방법
장점 :
- 간단하고 이애하기 쉽다.
단점 :
- 단어 수가 많아지면 많아질수록 벡터의 크기가 커지기 때문에 공간이 많이 사용되고 비효율적.
- 단어의 의미나 특성 같은 것들이 전혀 표현되지 않는 것.
코딩 순서
- 형태소 분석기로 문장들을 자릅니다.
- 자른 문장들을 합쳐서 하나의 사전으로 만듭니다.
- 사전에 등록된 단어의 인덱스를 1로 바꾸고 나머지는 0으로 넣은 배열을 출력합니다.
단점 타파
- 카운터 기반 방법
- 특이값 분해 (Singular Value Decomposition, SVD)
- 잠재의미분석 (Latent Semantic Analysis, LSA)
- Hyperspace Analogue to Language (HAL)
- Hellinger PCA(Principal Component Analysis)
- 예측 방법
- Word2Vec
- NNLM(Neural Network Language Model)
- RNNLM(Recurrent Neural Network Language Model)
참고문헌
- 텐서플로와 머신러닝으로 시작하는 자연어 처리: 로지스틱 회귀부터 프랜스포머 챗봇까지 (http://www.yes24.com/Product/Goods/69334316?Acode=101)
'인공지능' 카테고리의 다른 글
DIALOGPT : Large-Scale Generative Pre-training for Conversational Response Generation (0) | 2020.03.31 |
---|---|
Extreme Language Model Compression with Optimal Subwords and Shared Projections (0) | 2019.12.18 |
Deep learning natural language processing nlp 1 (0) | 2019.10.20 |
Artificial Neural Network 2 (0) | 2019.10.20 |
Artificial Neural Network 1 (0) | 2019.10.20 |
Comments