반응형




[웹] - Python을 사용하여 web Scraping


[웹] - python을 사용하여 웹페이지의 meta 데이터를 읽어오기



이제 웹문서에서 명사들만 추출해서 단어 빈도수를 세어볼려고 합니다. 어떻게 해야할지 구체적으로 생각해보지 않은 상태에서 우선 명사를 추출하는데 사용할 수 있는 koNLPy라는 파이썬 라이브리러를 찾았습니다.  제가 필요한건  조사를 제거하고 명사를 추출하는 것이지만 다양한 정보처리 알고리즘이 제공되는 듯합니다..차차 보기로하고...우선 설치부터 해봤습니다.


파이썬 2.x를 기준으로 설치를 진행했지만.. 참고한 사이트에 보면 3.x에서 설치하는 방법도 나와있습니다.   MeCab도 설치하려 했더니 중간에 Python.h를 찾을 수 없다고 에러가 나서 우선 제껴두었습니다. 찾아보니 /usr/src/python2.7/Python.h라고 분명히 있는데 이상하네요..

webnautes@virtual-machine:~$ sudo apt-get install python-dev; pip install konlpy 


홈페이지에서는 옵션이라고 되어있는걸 봐서는 안깔아도 동작한다는 말 같아서 나중에 다시 해보기로 하고 우선 홈페이지에 있는  예제를 동작시켜봤습니다. 

#-*- coding: utf-8 -*- 


from konlpy.tag import Kkma

from konlpy.utils import pprint

kkma = Kkma()


string1 = '네, 안녕하세요. 반갑습니다.'

pprint(kkma.sentences(unicode(string1,'utf-8')))

pprint(kkma.nouns(u'질문이나 건의사항은 깃헙 이슈 트래커에 남겨주세요.'))

pprint(kkma.pos(u'오류보고는 실행환경, 에러메세지와함께 설명을 최대한상세히!^^'))





이제 아고라에서 가져온 메타데이터에 대해서도 동작을 시켜봤는데.. 필요없는 명사들이 약간은 발생하지만 잘 동작하는 듯합니다. 신문기사를 대상으로 하면 좀 더 나은 결과를 얻을거 같은데 한번 해봐야 겠습니다.



참고

http://konlpy-ko.readthedocs.org/ko/v0.4.3/install/#ubuntu

http://konlpy-ko.readthedocs.org/ko/v0.4.3/

http://freeprog.tistory.com/m/post/69




반응형

포스트 작성시에는 문제 없었지만 이후 문제가 생길 수 있습니다.
댓글로 알려주시면 빠른 시일내에 답변을 드리겠습니다.

여러분의 응원으로 좋은 컨텐츠가 만들어집니다.
지금 본 내용이 도움이 되었다면 유튜브 구독 부탁드립니다. 감사합니다 : )

유튜브 구독하기


제가 쓴 책도 한번 검토해보세요.

+ Recent posts