본문 바로가기

Data Analysis16

[Python] kakao map api를 활용한 지오코딩(geocoding) geokakao !pip install geokakao를 실행하여 kakao map api 라이브러리를 설치합니다. 코드를 실행할 때는 키보드에서 Shift+Enter 키를 순서대로 누르면 됩니다.import pandas as pd, import geokakao as gk를 입력하여 라이브러리를 불러옵니다. 참고로, 무료로 사용할 수 있는 할당량은 하루 당 10만 건(월 300만 건)입니다 (출처).data = pd.read_csv('*.csv', encoding='euc-kr')를 실행하여 csv 파일을 읽어옵니다.gk.add_coordinates_to_dataframe(data, '상세주소')을 입력하여 data라는 데이터프레임에서 ‘상세주소’ 열을 기준으로 지오코딩을 실행합니다.print(data)를 실행하여 da.. 2024. 6. 24.
[Python] geopandas 설치 오류 해결 !pip install geopandas as gpd 설치 과정에서 오류가 발생하면, 아래 라이브러리들을 설치합니다.!pip install wheel!pip install pipwin!pipwin install numpy!pipwin install pandas!pipwin install shapely!pipwin install fiona!pipwin install pyproj!pip install six!pipwin install rtree!pipwin install geopandas  geopandas를 불러옵니다.import geopandas as gpd  참고글 https://foss4g.tistory.com/1659 GeoPandas(지오판다스) 설치하기안녕하세요? 이번 글은 Python으로 지리.. 2024. 6. 23.
[R] rda 파일이 load()로 안열릴 때, readRDS() 활용, rda 파일을 csv로 저장하기 load() 함수로 rda 파일을 열었더니, load()에서 다음과 같은 에러가 발생했습니다- 라는 오류 메세지가 나타났다.load('*.rda')  이럴 때는 readRDS() 함수로 열면 된다. (아래 화면은 주피터 노트북에서 R 사용 중 - 링크 참고)readRDS('*.rda')  데이터를 csv로 저장하려면 write.csv() 함수를 사용하면 된다.data 2024. 5. 23.
[Python] 토픽 모델링 (Topic Modeling) 토픽 모델링 토픽 모델링은 많은 양의 텍스트 데이터를 분석하는 데에 널리 사용되며, 토픽모델링 내에는 LSI(Latent Semantic Indexing), pLSI(probabilistic Latent Semantic Indexing), LDA(Latent Dirichlet Allocation) 등 다양한 기법들이 존재한다. 이 중 LDA는 문서 말뭉치(corpus)에서 잠재적인 토픽을 형성시키는 데에 가장 많이 사용되는 방법 중 하나이다. 토픽 모델링에서 문서 안의 단어들은 벡터로 표현되고, 이 벡터들을 조합하여 문서의 잠재적인 토픽을 형성한다. (수식 참고) 토픽 모델링에서는 문서 말뭉치가 잠재적으로 갖는 토픽의 개수를 설정하는 것이 중요하다. 이때 일관성(Coherence) 값을 이용할 수 있으며.. 2024. 2. 21.
[Python] 키워드 네트워크 분석 - 명사 분석, 동시 출현 빈도 분석, 키워드 네트워크 그래프 생성 키워드 네트워크 1. Node와 Edge - Network: Node와 Edge로 이루어진 자료 구조 - Node: vertex라고도 부르며, network를 이루는 각 점을 의미한다 ex) twitter user network를 만든다면, user들이 각각의 node - Edge: link, 또는 tie라고도 부르며, 각 node 간의 관계를 의미한다 ex) twitter user network를 만든다면, user(=node)간 follow 관계를 edge로 표현할 수 있다 2. Centrality: node의 중요성을 판별할 때 활용 - Degree Centrality, Betweenness Centrality, Closeness Centrality, Eigenvector centrality 아래 .. 2024. 2. 19.
[Python] 키워드 분석 꼬꼬마 모듈 사용 중 java.lang.NullPointerException: java.lang.NullPointerException 오류 해결 아래와 같이 kkma 모듈을 활용하여 단어(명사) 분석을 하다가 오류가 발생했다. print(i)를 통해 오류가 발생한 위치도 확인했다. for i in range(len(df['words'])): title = df['words'][i] morphemes = kkma.nouns(title) morphemes = [word for word in morphemes if word not in stopwords] all_keywords.append(morphemes) print(i) 이 오류는 데이터에 \n가 포함되어 있을 때 나타날 수 있다. 따라서 str.replace 함수를 활용하여 \n, \t, \r와 같은 단어들을 공백으로 대치해주면 된다. df['words'] = df['words'].str.rep.. 2024. 2. 19.
[Python] Window 10에 konlpy 설치하는 방법 1. JDK Development Kit 설치 Oracle 홈페이지에 들어가서 가장 최신 버전의 JDK Development Kit를 설치한다. 본인의 운영체제(Linux/macOS/Windows)의 탭을 선택하고, x64 Installer를 설치한다. 설치 위치는 C:\Program Files\Java 그대로 두면 된다. https://www.oracle.com/java/technologies/downloads/ Download the Latest Java LTS Free Subscribe to Java SE and get the most comprehensive Java support available, with 24/7 global access to the experts. www.oracle.com.. 2024. 2. 7.
[Python] 파이썬으로 한글 Word cloud 만들기 1. 패키지 설치 및 작업 경로 설정# Package Installation !pip install nltk !pip install --upgrade pip !pip install konlpy !pip install wordcloud !pip install --upgrade gensim !pip install matplotlib import pandas as pd from konlpy.tag import Kkma kkma = Kkma() import nltk from nltk import FreqDist from konlpy.tag import Okt; t = Okt() import matplotlib.pyplot as plt from matplotlib import font_manager, rc fro.. 2024. 2. 6.
[Python] 한글 자연어 처리하기, Kkma, konlpy, 문장 분석, 단어 분석, 형태소 분석 ※ '파이썬으로 데이터 주무르기' 책을 참고하여 작성한 글입니다. 파이썬으로 데이터 전처리 및 분석을 공부할 수 있는 좋은 책이라 추천합니다! 파이썬으로 데이터 주무르기 이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를 위해 처음부터 끝까지 파이썬으로 진행되는 과정을 다룹니다. 서울시 범죄 현황 분석, 셀프 주유소 가격 정보 분석, 19대 대선 결과 분석 등 흥미 있는 목표를 이루기 위해서 파이썬의 기초를 익히고, 데이터를 다루고 분석하는 데 필요한 과정을 대화 형식으로 전개하면서 필요한 기초 내용은 그때 그때 습득하고자 합니다. 마치 파이썬에 대해 잘 모르는 독자가 구글에서 검색하며 코드 한 줄 한 줄을 완성해가는 느낌으로 기술했.. 2024. 2. 6.
[API] 제주데이터허브 API key로 데이터 받는 법 - API key 받는 법: https://jejudatahub.net/about/data-use 참고 import requests import pandas as pd # API URL (data code 예시: bba9aab86a9tbD9989t6t8Da99t7ta86) api_url = 'https://open.jejudatahub.net/api/proxy/{data code}/{your API project key}' # 시작 날짜와 종료 날짜 설정 start_date = '202101' end_date = '202206' # 초기 페이지 및 페이지 크기 설정 page = 1 page_size = 100 # 페이지 당 100개 항목 all_data = [] while True: # API 요청을 보.. 2023. 10. 25.
[Python] geocoding하는 법, 주소로 좌표 찾기 보호되어 있는 글 입니다. 2023. 10. 1.
[R] FPCA (Functional Principal Component Analysis) R 코드 전체 코드 library(ggplot2) library(fda) library(funFEM) library(plyr) library(dplyr) library(reshape) library(reshape2) setwd("경로") mydata 2023. 9. 11.
[Python] 로렌츠 곡선, 지니 계수 Lorenz Curve 이 코드는 입력으로 리스트, 넘파이 배열, 판다스 시리즈 등의 값들을 받아 Lorenz curve를 그린다. 먼저 입력값 x를 넘파이 배열로 변환하고, 이를 오름차순으로 정렬한다. 그런 다음 누적합(cumulative sum)을 계산하여 Lorenz curve를 그릴 수 있는 데이터 포인트를 만든다. 마지막으로 이 데이터 포인트를 이용하여 Lorenz curve를 그리는 matplotlib plot을 만든다. 반환값은 그래프다. def lorenz_curve(x): """ :param x: list, numpy array, or pandas series of values :return: matplotlib plot of Lorenz curve """ # convert x to a .. 2023. 3. 25.
[Python] geopy를 활용하여 주소를 좌표로 바꾸기 from geopy.geocoders import Nominatim geo_local = Nominatim(user_agent='South Korea') def geocoding(address): try: geo=geo_local.geocode(address) x_y =[geo.latitude, geo.longitude] return x_y except: return[0,0] latitude=[] longitude=[] for i in test: latitude.append(geocoding(i)[0]) longitude.append(geocoding(i)[1]) lat_lon = pd.DataFrame((zip(latitude, longitude)), columns=['lat', 'lon']) 2023. 1. 16.
[Cytoscape] 2. Cytoscape 그래프 스타일링 이 글은 이전 글에 이어서 기본적인 그래프를 생성한 뒤, 원하는 대로 스타일링 하는 법에 대해 다룬다. 레이아웃 선택하기 위의 Layout 메뉴에서 다양한 layout을 선택할 수 있으며, 자동으로 node들을 배치해 준다. ​ 나는 graphml 파일 속성에 Cluster ID를 넣어뒀기 때문에, Cluster대로 배치를 하고자 했다. Layout > Group Attributes Layout에 들어가면 본인의 파일 안에 있는 모든 속성들이 나타난다. 나는 cluster ID를 선택하여 레이아웃을 배치시켰다. ​ 노드 색깔 입히기 이제 cluster ID 별로 색깔을 입혀보도록 하자. 왼쪽 탭에 있는 Style을 클릭하고, Fill Color를 확장시킨 뒤에 색깔을 입히고 싶은 Column 기준과 Ty.. 2023. 1. 10.
728x90
반응형