일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 웹 사이트 만들기
- 블로그 도메인 주소 변경
- VS Code
- 플라스크
- 셀레니움
- IDE 추천
- token
- 자연어 처리
- 통계적 언어모델
- 하드코딩
- 가상환경
- 코드 구현
- AWS
- 피보나치 수열
- authentication faile
- 성능비교
- 빠른 개발
- python-docx
- 유사도
- tf-idf
- 일반항 유도
- 웹 개발
- 통합개발환경 추천
- 로그인 후 크롤링
- Rout 53
- 계정정보
- bow
- 디버깅
- 좋은 기능
- bag of words
Archives
- Today
- Total
목록딥러닝 & 머신러닝/자연어 처리 (Natural Language Processing) (6)
DoITgrow
[자연어 처리] Bag of Word (BoW) - 파이썬(Python)
뉴스, 논문, 특허 등의 텍스트로 이루어진 데이터를 분석하기 위해서 무엇을 해야 할까? Tokenization(문장을 단어로 쪼개기), 불용어 제거, 단어 정규화(ex. apples → apple) 등의 전처리 작업과 더불어 컴퓨터가 이해할 수 있는 데이터로 변환해 주어야 한다. 즉, 문자를 숫자로 변환하는 작업을 수행해야 한다. 오늘은 문서(또는 문장)를 숫자로 변환하는 방법 중 가장 기본적인 BoW(Bag of Words) 방식을 활용하여 문서(또는 문장)를 컴퓨터가 이해할 수 있는 자료 형태로 가공하는 방법에 대해 포스팅하고자 한다. 본론에 들어가기 앞서 BoW는 자연어 처리에 많이 활용되는 기법이고, 주로 결과물로 활용하기 보다는 데이터를 전처리하는 중간 중간에 활용하는 데이터 형태로 이해하면 좋..
딥러닝 & 머신러닝/자연어 처리 (Natural Language Processing)
2021. 9. 23. 12:23