※ '파이썬으로 데이터 주무르기' 책을 참고하여 작성한 글입니다. 파이썬으로 데이터 전처리 및 분석을 공부할 수 있는 좋은 책이라 추천합니다!
1. Kkma 활용
# 패키지 불러오기
from konlpy.tag import Kkma # 이때 맨 앞 K는 대문자
kkma = Kkma()
# 문장 분석
kkma.sentences('안녕하세요 잘 부탁드립니다')
# ['안녕하세요', '잘 부탁 드립니다']
kkma.sentences('안녕하세요 반갑습니다 잘부탁드립니다')
# ['안녕 하세요 반갑습니다', '잘 부탁드립니다']
온점이 없어도 문장 인식이 된다.
그러나 '안녕하세요 반갑습니다 잘부탁드립니다'의 경우 문장이 제대로 나누어지지 않았다. (왜 이런 지 파악 필요)
# 명사 분석
kkma.nouns('안녕하세요 잘 부탁드립니다')
# ['안녕', '부탁']
kkma.nouns('안녕하세요 잘부탁드립니다')
# ['안녕']
띄어쓰기 여부에 따라 명사로 인식되는 내용이 달라진다.
# 형태소 분석
kkma.pos('안녕하세요 잘 부탁드립니다')
# [('안녕', 'NNG'),
# ('하', 'XSV'),
# ('세요', 'EFN'),
# ('잘', 'MAG'),
# ('부탁', 'NNG'),
# ('드리', 'VV'),
# ('ㅂ니다', 'EFN')]
한글은 단어 형태가 많기 때문에 최소 의미 단위인 형태소로 분석하는 것이 일반적이다.
2. konlpy 활용
# 패키지 불러오기
from konlpy.tag import Twitter
t = Twitter()
# 명사 분석
t.nouns('한국어 분석 패키지입니다')
# ['한국어', '분석', '패키지']
# 형태소 분석 (설명이 없는 버전)
t.morphs('한국어 분석 패키지입니다')
# ['한국어', '분석', '패키지', '입니다']
# 형태소 분석 (설명이 있는 버전)
t.pos('한국어 분석 패키지입니다')
# [('한국어', 'Noun'), ('분석', 'Noun'), ('패키지', 'Noun'), ('입니다', 'Adjective')]
728x90
반응형
'Data Analysis > Python' 카테고리의 다른 글
[Python] Window 10에 konlpy 설치하는 방법 (0) | 2024.02.07 |
---|---|
[Python] 파이썬으로 한글 Word cloud 만들기 (0) | 2024.02.06 |
[API] 제주데이터허브 API key로 데이터 받는 법 (0) | 2023.10.25 |
[Python] geocoding하는 법, 주소로 좌표 찾기 (0) | 2023.10.01 |
[Python] 로렌츠 곡선, 지니 계수 (0) | 2023.03.25 |