- 시공간에 따라 중국과 다른 나라의 관계가 어떻게 달라지는지 분석하는데 Mass media (The Global Data on Events, Location and Tone; GDELT) 데이터가 효율적이라는 데 초점을 둔 연구.
1. Introduction
- 대부분의 기존 연구는 시공간 패턴 인식과 같은 이벤트 마이닝의 방법론적 관점에 중점을 두고 있음
- 매스 미디어 데이터를 사용하여 서로 다른 지리적 지역 간의 연결을 탐색하거나 시간이 지남에 따라 이러한 연결이 어떻게 진화하는지 조사한 경험적 연구는 상대적으로 적음
- 그러나 이러한 연구의 내부적인 한계 존재:
- 첫째, 운송 및 무역 흐름과 같은 집계된 사회 경제적 데이터는 종종 일방적이므로 개념적으로 두 개체 간의 공간적 연결에 대한 제한된 측면만 제공
- 둘째, 이러한 데이터는 오랜 기간 동안 수집되었지만(예: 종단적 데이터) 실시간으로 업데이트되지 않음. 따라서 시간적 해상도가 대략적인 경우가 많음(예: 매년).
- 그러나 이러한 연구의 내부적인 한계 존재:
- 본 연구에서는 오픈 소스 데이터 세트인 "GDELT(Global Data on Events, Location and Tone)"를 사용하여 매스 미디어에서 발견된 중국과 다른 국가 간의 유대와 관계를 시공간적 분석
- 첫째, 다양한 상황에서 거리의 다양한 역할을 테스트하기 위해 중력 모델을 기반으로 하는 GDELT 데이터와 두 개의 보완적인 데이터 세트(Flickr 및 Airline Carrier)에서 magnitude of the spatial decay effect 조사
- 둘째, 시간에 따른 국가 간 연결 패턴을 분석하기 위해 시계열 모델을 구축
- 국가 간의 공간적 상호 작용과 연결에 대한 새로운 통찰력을 드러내기 위해 매스 미디어 데이터 활용의 효율성을 입증하는 데 중점 (정치적 관점의 해석이 아님)
2. Related work
2.1. Mass media data in the big data era
- 새로운 시공간 데이터 소스 생성, 개인 중심 데이터 활용 가능
- 매스 미디어 데이터는 대규모 및 장기 시공간 패턴 분석에 적합
- 기존 연구 사례
2.2. Spatial connection and distance decay effect ★
- Researchers have employed different models to investigate how distance decay influences the magnitude of interactions between geographic units.
- 중력 모델은 상호 작용 정도 예측에 효율적이고, 식이 단순하고, 양방향 흐름을 처리할 수 있기 때문에 주로 사용됨
- "interaction"과 관련된 공간 관련성(spatial relatedness) 연구 주제
- e.g. 공간 근접성(spatial proximity), 속성 유사성(attributive similarity), 공간 상호작용(spatial interaction)
- 중력 모델은 공간 연결성을 모델링하고 특정 유형의 공간 연관에 대한 거리의 영향을 논의하는 데 활용됨
- 이러한 공간 관련성의 단방향 및 양방향 연결을 모두 탐구
2.3. Time series data and dynamic time warping (DTW)
- 시계열 분석에서 중요한 연구 질문 중 하나는 두 시계열이 유사한 지 여부를 찾는 것
- 본 연구는 spatial decay effect 뿐만 아니라 시계열 패턴도 파악하며, 국가 간 연결 강도의 시계열 유사성을 정량화하기 위해 DTW를 활용함
- 본 연구에서 중국과 외국 간의 연관성은 인과관계가 아닌 상관관계를 나타냄
3. Research design
3.1. Dataset
3.1.1. Main dataset: GDELT
- CAMEO-coded dataset은 매일 업데이트되며 1979년부터 2억 5천만 개가 넘는 뉴스 이벤트 기록으로 구성. 이벤트의 평균 "어조(tone)"는 해당 이벤트에 대해 하나 이상 언급된 모든 문서를 포함하여 계산됨
3.1.2. Complementary datasets
- 두 개의 보완 데이터(Flickr, Airline carrier)를 더 활용하여 다양한 성격을 지닌 데이터 세트(예: 대중 매체, 소셜 미디어 및 대중 교통 데이터)에서 거리의 역할을 탐색
3.2. Methodology
- Data preprocessing
- 국가 수준의 지오코딩이 포함된 중국과 다른 국가 관계에 대한 뉴스 추출
- 연도 $y$에서 다른 나라 $i$와의 "co-occurrence" 빈도는 $F_y(i,c)$로 표현
- 공간 조락 효과(spatial decay effects) 모델링 및 해석
- $I_{ij}=K\frac{P_iP_j}{D_{ij}^{\beta}}$
- $P_i$와 $P_j$는 $i$와 $j$의 개념적 사이즈(conceptual sizes, 상대 중요성)
- $D_{ij}$는 거리
- $I_{ij}$ $i$와 $j$ 사이의 상호작용 또는 연결
- 거리 마찰 계수(distance friction coefficient) β의 가장 적합한 값을 비교하기 위해 세 가지 중력 모델을 구성
- fitted and observed $I_{ij}$ 사이의 Pearson 상관관계($R^2$)를 평가하여 β의 최적값 계산
- β 값이 높을수록 거리 조락 효과가 더 강하다는 것을 나타냄
- 2008-2012 데이터 활용
- $I_{ij}=K\frac{P_iP_j}{D_{ij}^{\beta}}$
- 시간 시리즈 데이터 모델링 및 해석
- DTW 활용
- 먼저 DTW 그리드 구성, 각 그리드 셀 내부에 두 시계열의 해당 요소(여기에서는 절대 차이 사용)를 비교하기 위해 거리 측정, 두 시계열 간의 DTW 거리는 전체 거리를 최소화하는 그리드를 통과하는 경로로 간주
- 국가 간 유사성과 차이점을 보기 위해 계층적 클러스터링 수행
- Calinski-Harabasz(CH index) 지수를 활용하여 클러스터 내 분산과 클러스터 간 분산 조합으로 클러스터 수 결정
- DTW 활용
4. Analysis results and discussion
4.1. Spatial decay effect
- 거리는 Flickr 데이터 세트(β = 0.12, R2 = 0.9997)에서 가장 영향력이 작고 , GDELT 데이터 세트(β = 0.74, R2 = 0.9252), 국제 항공 데이터(β = 1.51, R2 = 0.7926)에서 강한 영향력을 보임
- 소셜 네트워킹 사이트에서 자발적으로 제공되는 지리 정보가 대중 매체 데이터나 대중 교통 데이터보다 약한 거리 감소 영향을 가짐
- 소셜 네트워킹 사이트에서 자발적으로 제공되는 지리 정보가 대중 매체 데이터나 대중 교통 데이터보다 약한 거리 감소 영향을 가짐
4.2. Clustering time series
- 동시빈도를 기반으로 국가 $I$가 중국에 얼마나 중요한 지에 대한 "일방향" 효과 분석
- 상대적 비교를 위해 [0,1] 데이터로 정규화한 뒤 1979-2012년 사이의 최대값으로 나누어, 최대값을 (1.000)로 표현
- CH index 결과에 따라 클러스터를 4개로 분류
- 1: normalized connection strengh가 처음에 감소한 뒤 점차 증가
- 2: normalized connection strengh가 꾸준히 증가
- 3: normalized connection strengh가 안정적
- 4: normalized connection strengh가 꾸준히 감소
4.3. Discussion
- DTW 거리 기반 클러스터링 분석은 두 시계열의 피크가 정확히 정렬되지 않아도 패턴 분석 가능
5. Conclusion
- 본 연구의 목적은 대규모 시공간적 규모의 국가 간 연결을 분석하기 위해 매스미디어 데이터 활용의 타당성 분석
- GDELT 데이터 세트를 활용하여 시계열 모델링과 클러스터링 분석을 기반으로 중국과 외국 간의 연관성을 분석
- 이 연구의 기여
- fit $β$ value는 소셜 미디어 < 매스 미디어 < 국제 항공 운송으로 나타남
- DTW가 매스 미디어의 시계열 분석에 효율적이었음
- GDELT에서 추출한 패턴은 무역, 역사 이벤트 등의 2차 데이터를 통해 검증 가능
- 향후 연구에서는 연결 강도와 인구/경제 및 어조 등의 상관관계 분석 가능
728x90
반응형