Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
Tags
- AWS
- 성능비교
- Rout 53
- python-docx
- 웹 사이트 만들기
- 자연어 처리
- 플라스크
- 블로그 도메인 주소 변경
- bag of words
- 유사도
- 빠른 개발
- 일반항 유도
- 피보나치 수열
- 셀레니움
- 코드 구현
- 통합개발환경 추천
- 계정정보
- 가상환경
- 하드코딩
- 통계적 언어모델
- 로그인 후 크롤링
- tf-idf
- VS Code
- bow
- token
- 디버깅
- 좋은 기능
- IDE 추천
- authentication faile
- 웹 개발
- Today
- 58
- Total
- 100,137
목록통계적 언어모델 (1)
DoITgrow

이전 포스트에서 Bag of Word(BoW)의 개념을 알아보았고, BoW는 텍스트 문서(또는 문장)를 컴퓨터가 이해할 수 있는 데이터로 변환하는 간단한 알고리즘이라는 것을 코드를 직접 구현해보며 알아보았다. 2021.09.23 - [자연어 처리] Bag of Word (BoW) - 파이썬(Python) 그러나 텍스트 정보를 BoW를 통해 언어 모델로 해석하려고 한다면 몇 가지 문제점이 존재한다. Bag of Word의 한계 1. 불용어(의미 없는 단어)를 제대로 제거하지 못하면 원하지 않는 편향된(biased) 결과가 얻어질 수 있다. 2. 문장(또는 문서)의 의미가 단어 순서에 따라 달라질 수 있지만 BoW 모델은 이를 반영할 수 없다. 언급한 2가지 한계점 중 첫 번째의 사례에 대해 구체적으로 설명..
딥러닝 & 머신러닝/자연어 처리 (Natural Language Processing)
2021. 9. 23. 14:25