일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 인공지능
- c++
- 파이썬
- php
- Shellcode
- BOF 원정대
- Linux
- Scala
- 챗GPT
- 리눅스
- 딥러닝
- 러닝스칼라
- 경제
- webhacking
- hackerschool
- ChatGPT
- 백엔드
- Python
- 러닝 스칼라
- deep learning
- Web
- backend
- flask
- 웹해킹
- BOF
- hacking
- Javascript
- mysql
- c
- hackthissite
- Today
- Total
목록자연어처리 (3)
jam 블로그
LSTM (1997): 반복 신경망을 장기 기억을 유지할 수 있도록 확장한 LSTM(Long Short-Term Memory) 모델이 제안됨. [논문: "Long Short-Term Memory", 1997] Conditional Random Field (2001): 레이블된 시퀀스 데이터를 모델링하는데 사용되는 조건부 랜덤 필드(Conditional Random Field) 모델이 제안됨. [논문: "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", 2001] Word2Vec (2013): 단어를 밀집 벡터(dense vector)로 표현하는 기법인 Word2Vec이 제안됨. [논문: "E..
자연어 처리(Natural Language Processing, NLP) 스터디 용으로 Deep Learning from Scratch 2 책을 참고로 정리한 것입니다. Word Embedding에 대해서 알아봅니다. 시소러스를 활용한 기법 통계 기반 기법 추론 기반 기법(word2vec) Latent semantic analysis Brown clustering Glove fastText Gensim 위와 같이 다양하게 있으며, 해당 책에서는 볼드로 된 3가지를 설명합니다. 시소러스 유의어 사전으로, '뜻이 같은 단어(동의어)'나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류 자연어 처리에 이용되는 시소러스는 단어 사이의 '상위, 하위' 또는 '전체..
원-핫 인코딩 각 단어의 인덱스를 정한 후 각 단어의 벡터를 각 단어에 해당하는 인덱스의 값을 1로 표현하는 방법 장점 : 간단하고 이애하기 쉽다. 단점 : 단어 수가 많아지면 많아질수록 벡터의 크기가 커지기 때문에 공간이 많이 사용되고 비효율적. 단어의 의미나 특성 같은 것들이 전혀 표현되지 않는 것. 코딩 순서 형태소 분석기로 문장들을 자릅니다. 자른 문장들을 합쳐서 하나의 사전으로 만듭니다. 사전에 등록된 단어의 인덱스를 1로 바꾸고 나머지는 0으로 넣은 배열을 출력합니다. 단점 타파 카운터 기반 방법 특이값 분해 (Singular Value Decomposition, SVD) 잠재의미분석 (Latent Semantic Analysis, LSA) Hyperspace Analogue to Langua..