일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 로그인 후 크롤링
- python-docx
- 자연어 처리
- 일반항 유도
- IDE 추천
- 통합개발환경 추천
- Rout 53
- VS Code
- 하드코딩
- token
- 좋은 기능
- 계정정보
- 피보나치 수열
- 성능비교
- authentication faile
- 디버깅
- 블로그 도메인 주소 변경
- 셀레니움
- bow
- 통계적 언어모델
- 빠른 개발
- 웹 개발
- 웹 사이트 만들기
- 유사도
- 가상환경
- 코드 구현
- 플라스크
- tf-idf
- AWS
- bag of words
- Today
- 58
- Total
- 100,137
목록딥러닝 & 머신러닝 (7)
DoITgrow

안녕하세요. 자연어 처리를 할 때, 형태소 분석기는 매우 중요하죠. 오늘은 윈도우10 환경에서 Mecab 형태소 분석기를 설치하고 활용하는 방법에 대해서 알아보겠습니다. 사전에 설치가 필요한 프로그램 Mecab 형태소 분석기는 Java 언어로 구현된 라이브러리이므로 파이썬에서 작동시키려면 파이썬에서 자바 언어를 해석할 수 있어야 합니다. 그러게 위해 필요한 것은 파이썬을 대신하여 자바 언어를 읽고 파이썬에게 통역해주는 프로그램이 필요합니다. 바로 2가지 JDK 라고 부르는 "Java SE Development Kit"과 "Jpype" 프로그램 설치가 필요합니다. 단순하게 어떤 패키지를 설치해야 하는지 외우기 보다는 각각의 프로그램이 하는 역할을 같이 알고 계시면 나중에 다시 환경설정을 할 때, 금방 기억..

안녕하세요. 오늘 소개해드릴 코드는 한글 문서의 단어를 추출하여 워드클라우드(Word Cloud)로 시각화하는 방법입니다. 파이썬에서 시각화는 거의 모두 matplotlib 라이브러리를 기반으로 하고 있습니다. 그러나 기본적으로 한글을 지원하지 않기 때문에 한글 데이터를 시각화할 경우 폰트가 깨지는 문제가 발생하여 이 부분에 대해서 다뤄보고자 합니다. 그리고 생성한 워드 클라우드의 그림을 우리가 원하는 이미지 형태로 나타낼 수 있는 방법 또한 소개드리려고 합니다. 포스팅 주요 내용 1. konlpy 패키지를 통한 한글 텍스트 추출 및 간단한 전처리 2. 한글로 워드클라우드 시각화 3. 원하는 이미지로 워드클라우드 생성하기 그럼 바로 본론으로 들어가겠습니다~ 0. 필요 패키지 불러오기 from wordcl..
분석의 결과는 데이터 품질에 따라 크게 좌우되므로 분석에 앞서 전처리하는 과정이 매우 중요합니다. 아마도 분석을 하고 계시는 분들은 실제 분석보다도 분석을 위한 준비 시간이 약 70% 이상을 차지하신다는 것을 잘 아실 것 같습니다. 분석을 위해 수집하는 데이터에는 엄청나게 많은 노이즈들이 포함될 수 있습니다. 예를들어 영어 데이터를 분석하려고 하는데 기타 언어들이 포함되어 있는 경우가 있을 수 있는데 이때 인코딩/디코딩 기법을 사용하여 쉽게 처리하는 방법에 대해 소개드리려고 합니다. 인코딩/디코딩 우리가 코딩할 때 타이핑하는 글자들은 사람이 이해할 수 있는 방식으로 표현된 것일 뿐, 실제로 컴퓨터는 다르게 받아들여서 이해를 합니다. 우리는 코딩을 하며 이러한 과정을 보통 볼 수 없는데, 컴퓨가 알아서 입..

게임할 때에는 컴퓨터가 자동으로 그래픽 카드를 인식하여 작동시키지만, 우리가 데이터 분석을 할 때에는 여러가지 설정을 해주어야 합니다. 오늘은 딥러닝의 가장 유명한 프레임워크인 텐서플로우에서 GPU를 사용하기 위해 설정하는 방법을 알아보려고 합니다. 파이썬으로 Tensorflow 프레임워크가 GPU를 인식하고 있는지 확인하는 법 tensorflow에서 현재 사용 가능한 처리 장치 종류가 어떤 것이 있는지 확인할 수 있는 방법이 있어요. 아래와 같이 코드를 실행시켜보면 현재 사용 가능한 device는 어떤 것들이 있는지 알 수 있는데, 현재 저는 CPU 1개 밖에 없네요. from tensorflow.python.client import device_lib print(device_lib.list_local..

자연어 처리를 할 때 문장을 단어로 나누고, 형태소 분석을 하는 등 다양한 전처리 작업이 필요하다. 영어를 자연어 처리할 때에는 nltk 패키지를 가장 많이 사용하며, 한국어를 처리할 때에는 konlpy를 대표적으로 사용할 수 있다. 그러나 컴퓨터 운영체제마다 설정하는 방법도 다르고, 패키지 간 버전이 맞지 않는 등 다양한 오류를 접할 수 있다. 오늘은 konlpy 패키지를 불러올 때, 아래와 같은 에러 메세지가 발생하는 경우의 해결 방법을 포스팅하고자 한다. import konlpy >> AttributeError: module 'tweepy' has no attribute 'StreamListener' 해결 방법 위와 같은 오류 메시지가 발생하는 이유는 자세히 모듈을 뜯어보진 않았지만 konlpy 패..