일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 가상환경
- 통합개발환경 추천
- AWS
- 코드 구현
- Rout 53
- 플라스크
- 좋은 기능
- bow
- VS Code
- 블로그 도메인 주소 변경
- IDE 추천
- 통계적 언어모델
- 유사도
- python-docx
- 로그인 후 크롤링
- 자연어 처리
- 피보나치 수열
- 웹 사이트 만들기
- token
- 셀레니움
- 웹 개발
- 빠른 개발
- authentication faile
- 성능비교
- bag of words
- 디버깅
- 계정정보
- 하드코딩
- tf-idf
- 일반항 유도
- Today
- Total
목록프로그래밍 (7)
DoITgrow
들어가며 python-docx 패키지는 파이썬으로 Microsoft Word를 제어할 수 있는 툴입니다. 자세한 사용법은 패키지를 설명한 사이트에 들어가면 잘 정리되어 있으니 해당 사이트를 참고하시면 됩니다. 그러나 해외에서 제작한 패키지이다 보니 한글을 처리하기에는 많이 복잡합니다. 그래서 패키지에서 한글 폰트를 원하는 것으로 설정할 수 있는 방법에 대해 공유하고자 합니다. 한글 폰트 적용 방법 먼저 한글에 폰트가 적용되지 않는 이유는 영어와 한글의 다른 문자 체계 때문입니다. 기본적으로 한글은 eastAsia로 분류된다고 합니다. 따라서 python-docx 패키지에서 폰트를 적용하려면 기본적으로 어떤 문자 체계인지를 같이 알려줘야 됩니다. from docx.oxml.ns import qn impor..

들어가며 안녕하세요. 오늘 소개드릴 내용은 웹 크롤링할 때 많이 사용하는 셀레니움 패키지에 관한 내용입니다. 아마도 셀레니움의 디버깅 모드를 알고 계시는 분들은 크롤링 알고리즘을 만들 때 시간을 많이 절약하실 것 같고, 모르시는 분들은 크롤링 절차를 추가할수록 디버깅 시간이 더 오래걸릴 것 같네요. 그만큼 알고있으면 좋은 디버깅 모드에 대해 알려드리겠습니다. 셀레니움 디버깅 모드의 편리성 예를들어 아래와 같은 과정으로 크롤링 코드를 작성한다고 할 때, "B"에 대한 코드를 작성하는 단계라고 한다면 디버깅시간은 금방 걸릴 것입니다. 디버깅 모드 필요없이 그냥 실행해도 "A → B"까지의 코드 동작 과정만 확인하면 되니까요. 그러나 만약 마지막 단계인 "E"에 대한 코드가 정상적으로 작성되었는지 확인하기 위..
안녕하세요. 오늘은 간단히 파이썬 Pandas(판다스) 패키지의 좋은 기능 하나를 소개해 드리려고 합니다. 데이터 분석을 위해서 거의 70% 이상의 시간을 데이터 전처리하는데 쓰는 거 같아요. 저는 이제 엑셀보다 파이썬 판다스가 편해서 엑셀을 잘 안열고, 판다스를 많이 사용하는 것 같아요. 그래도 아직 알아야한 기능들이 있어서 지속적으로 공부하는 것이 필요할 것 같네요. 오늘은 문자열을 전처리하는 방법 중 하나로 문자열을 분리하는 방법을 소개드리려고 합니다. 데이터를 수집하다 보면 간혹 잘 분리되었지만 미처 분리되지 않고, 다른 구분자로 구분되어 있는 데이터 형태를 만날 수 있습니다. 예를들어 csv 파일을 콤마( , )로 구분하여 데이터프레임 형태로 얻었는데, 특정 부분은 콤마가 아닌 세미콜론( ; )..
안녕하세요. 오늘은 얼마전에 새로 알게되어 소개해드리고 싶은 패키지가 있어서 포스팅을 하네요. 아마 고수분들은 이미 알고 계시는 내용일 수 있겠지만 언제나 그랫든 저는 저와 같은 코린이 분들을 위해 기록을 남기는 중이라 의의가 있다고 생각합니다!! 원하는 결과를 얻기 위해 선택할 수 있는 다양한 방법이 있는데 어떤 것이 좋은거지? 직접 프로그래밍 언어를 개발하는 곳에 종사하지 않는한 파이썬에 기본 내장되어 있는 함수들의 작동 방식까지 깊게 배우지 않을 것 같아요. 다만 반복문을 2중, 3중, 그 이상 중첩해서 사용하면 속도가 기하급수적으로 느려진다는 것은 배웠고, 우리는 map 함수와 같은 병렬 처리를 통해 속도 저하를 피할 수 있다는 것은 많이 알고 있습니다. 그런데 우리가 데이터 변수를 선언할 때 ..
해당 오류는 pip 명령어로 패키지를 설치하거나 tar.gz, whl 파일로 패키지를 직접 설치할 때 압축 파일 안에 있는 setup.py 파일을 자동으로 실행하는데 여기에 포함되어 있는 코드 중 txt 파일과 같은 것을 읽을 때 디코딩이 제대로 되지 않아서 발생하는 문제이다. 위 문제를 해결하기 위해서는 tar.gz 파일을 받은 후 압축을 해제하여 설치하는 방법을 이용해야 한다. 압축을 해제하면 해당 폴더에는 setup.py 파일이 있을 것이다. 여기 위치에서 cmd 또는 shell을 열어서 직접 python setup.py install 명령어를 실행하여 설치해야 한다. 명령어를 실행하기 전에 1가지 미리 작업해 주어야 할 것이 있는데 setup.py를 메모장이나 기타 편집기로 열어서 안에 내용을 일..