일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- flask
- hacking
- BOF 원정대
- 웹해킹
- 백엔드
- Scala
- Shellcode
- 러닝스칼라
- ChatGPT
- hackthissite
- php
- mysql
- Python
- hackerschool
- 인공지능
- webhacking
- 리눅스
- Web
- c
- deep learning
- BOF
- c++
- 챗GPT
- backend
- 파이썬
- 러닝 스칼라
- 경제
- Linux
- 딥러닝
- Javascript
- Today
- Total
목록Bert (2)
jam 블로그
LSTM (1997): 반복 신경망을 장기 기억을 유지할 수 있도록 확장한 LSTM(Long Short-Term Memory) 모델이 제안됨. [논문: "Long Short-Term Memory", 1997] Conditional Random Field (2001): 레이블된 시퀀스 데이터를 모델링하는데 사용되는 조건부 랜덤 필드(Conditional Random Field) 모델이 제안됨. [논문: "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", 2001] Word2Vec (2013): 단어를 밀집 벡터(dense vector)로 표현하는 기법인 Word2Vec이 제안됨. [논문: "E..
Abstract 현재 사전 훈련된 모델들(ELMo GPT BERT XLNet)이 다양한 언어 이해 과제에서 좋은 성적을 거두고 있음. 그러나 모델들이 너무 커서 모바일이나 Edge 기기에서 사용하기가 어려움. 그래서 나온 knowledge distillation이 있지만 원래 Teacher 모델과는 다른 어휘로 Student 모델을 산출하는데에는 효과가 없음. 이 논문에서 훨씬 더 작은 어휘와 낮은 임베딩, hidden state dimensions을 가진 student 모델을 훈련시키기 위해 새로운 knowledge distillation을 도입함. Teacher, student 모델을 동시에 훈련시켜 student 어휘를 위한 최적의 워드 임베딩을 얻는 dualtrain 메커니증을 채용. teache..