일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- authentication faile
- 로그인 후 크롤링
- 유사도
- token
- python-docx
- 웹 사이트 만들기
- 좋은 기능
- bow
- 피보나치 수열
- 디버깅
- IDE 추천
- VS Code
- 플라스크
- 통계적 언어모델
- 자연어 처리
- bag of words
- tf-idf
- 빠른 개발
- 일반항 유도
- 하드코딩
- 통합개발환경 추천
- AWS
- 블로그 도메인 주소 변경
- 코드 구현
- 계정정보
- Rout 53
- 웹 개발
- 성능비교
- 가상환경
- 셀레니움
- Today
- 58
- Total
- 100,137
목록딥러닝 & 머신러닝/자연어 처리 (Natural Language Processing) (6)
DoITgrow

안녕하세요. 자연어 처리를 할 때, 형태소 분석기는 매우 중요하죠. 오늘은 윈도우10 환경에서 Mecab 형태소 분석기를 설치하고 활용하는 방법에 대해서 알아보겠습니다. 사전에 설치가 필요한 프로그램 Mecab 형태소 분석기는 Java 언어로 구현된 라이브러리이므로 파이썬에서 작동시키려면 파이썬에서 자바 언어를 해석할 수 있어야 합니다. 그러게 위해 필요한 것은 파이썬을 대신하여 자바 언어를 읽고 파이썬에게 통역해주는 프로그램이 필요합니다. 바로 2가지 JDK 라고 부르는 "Java SE Development Kit"과 "Jpype" 프로그램 설치가 필요합니다. 단순하게 어떤 패키지를 설치해야 하는지 외우기 보다는 각각의 프로그램이 하는 역할을 같이 알고 계시면 나중에 다시 환경설정을 할 때, 금방 기억..

안녕하세요. 오늘 소개해드릴 코드는 한글 문서의 단어를 추출하여 워드클라우드(Word Cloud)로 시각화하는 방법입니다. 파이썬에서 시각화는 거의 모두 matplotlib 라이브러리를 기반으로 하고 있습니다. 그러나 기본적으로 한글을 지원하지 않기 때문에 한글 데이터를 시각화할 경우 폰트가 깨지는 문제가 발생하여 이 부분에 대해서 다뤄보고자 합니다. 그리고 생성한 워드 클라우드의 그림을 우리가 원하는 이미지 형태로 나타낼 수 있는 방법 또한 소개드리려고 합니다. 포스팅 주요 내용 1. konlpy 패키지를 통한 한글 텍스트 추출 및 간단한 전처리 2. 한글로 워드클라우드 시각화 3. 원하는 이미지로 워드클라우드 생성하기 그럼 바로 본론으로 들어가겠습니다~ 0. 필요 패키지 불러오기 from wordcl..
분석의 결과는 데이터 품질에 따라 크게 좌우되므로 분석에 앞서 전처리하는 과정이 매우 중요합니다. 아마도 분석을 하고 계시는 분들은 실제 분석보다도 분석을 위한 준비 시간이 약 70% 이상을 차지하신다는 것을 잘 아실 것 같습니다. 분석을 위해 수집하는 데이터에는 엄청나게 많은 노이즈들이 포함될 수 있습니다. 예를들어 영어 데이터를 분석하려고 하는데 기타 언어들이 포함되어 있는 경우가 있을 수 있는데 이때 인코딩/디코딩 기법을 사용하여 쉽게 처리하는 방법에 대해 소개드리려고 합니다. 인코딩/디코딩 우리가 코딩할 때 타이핑하는 글자들은 사람이 이해할 수 있는 방식으로 표현된 것일 뿐, 실제로 컴퓨터는 다르게 받아들여서 이해를 합니다. 우리는 코딩을 하며 이러한 과정을 보통 볼 수 없는데, 컴퓨가 알아서 입..

자연어 처리를 할 때 문장을 단어로 나누고, 형태소 분석을 하는 등 다양한 전처리 작업이 필요하다. 영어를 자연어 처리할 때에는 nltk 패키지를 가장 많이 사용하며, 한국어를 처리할 때에는 konlpy를 대표적으로 사용할 수 있다. 그러나 컴퓨터 운영체제마다 설정하는 방법도 다르고, 패키지 간 버전이 맞지 않는 등 다양한 오류를 접할 수 있다. 오늘은 konlpy 패키지를 불러올 때, 아래와 같은 에러 메세지가 발생하는 경우의 해결 방법을 포스팅하고자 한다. import konlpy >> AttributeError: module 'tweepy' has no attribute 'StreamListener' 해결 방법 위와 같은 오류 메시지가 발생하는 이유는 자세히 모듈을 뜯어보진 않았지만 konlpy 패..

이전 포스트에서 Bag of Word(BoW)의 개념을 알아보았고, BoW는 텍스트 문서(또는 문장)를 컴퓨터가 이해할 수 있는 데이터로 변환하는 간단한 알고리즘이라는 것을 코드를 직접 구현해보며 알아보았다. 2021.09.23 - [자연어 처리] Bag of Word (BoW) - 파이썬(Python) 그러나 텍스트 정보를 BoW를 통해 언어 모델로 해석하려고 한다면 몇 가지 문제점이 존재한다. Bag of Word의 한계 1. 불용어(의미 없는 단어)를 제대로 제거하지 못하면 원하지 않는 편향된(biased) 결과가 얻어질 수 있다. 2. 문장(또는 문서)의 의미가 단어 순서에 따라 달라질 수 있지만 BoW 모델은 이를 반영할 수 없다. 언급한 2가지 한계점 중 첫 번째의 사례에 대해 구체적으로 설명..