본문 바로가기
대학원/논문 리뷰

Yuan, Y., Liu, Y., & Wei, G. (2017). Exploring inter-country connection in mass media: A case study of China. Computers, Environment and Urban Systems, 62, 86–96.

by lucky__lucy 2024. 10. 29.
  • 시공간에 따라 중국과 다른 나라의 관계가 어떻게 달라지는지 분석하는데 Mass media (The Global Data on Events, Location and Tone; GDELT) 데이터가 효율적이라는 데 초점을 둔 연구. 

 

1. Introduction

  • 대부분의 기존 연구는 시공간 패턴 인식과 같은 이벤트 마이닝의 방법론적 관점에 중점을 두고 있음
  • 매스 미디어 데이터를 사용하여 서로 다른 지리적 지역 간의 연결을 탐색하거나 시간이 지남에 따라 이러한 연결이 어떻게 진화하는지 조사한 경험적 연구는 상대적으로 적음
    • 그러나 이러한 연구의 내부적인 한계 존재:
      • 첫째, 운송 및 무역 흐름과 같은 집계된 사회 경제적 데이터는 종종 일방적이므로 개념적으로 두 개체 간의 공간적 연결에 대한 제한된 측면만 제공
      • 둘째, 이러한 데이터는 오랜 기간 동안 수집되었지만(예: 종단적 데이터) 실시간으로 업데이트되지 않음. 따라서 시간적 해상도가 대략적인 경우가 많음(예: 매년).
  • 본 연구에서는 오픈 소스 데이터 세트인 "GDELT(Global Data on Events, Location and Tone)"를 사용하여 매스 미디어에서 발견된 중국과 다른 국가 간의 유대와 관계를 시공간적 분석
    • 첫째, 다양한 상황에서 거리의 다양한 역할을 테스트하기 위해 중력 모델을 기반으로 하는 GDELT 데이터와 두 개의 보완적인 데이터 세트(Flickr 및 Airline Carrier)에서 magnitude of the spatial decay effect 조사
    • 둘째, 시간에 따른 국가 간 연결 패턴을 분석하기 위해 시계열 모델을 구축
  • 국가 간의 공간적 상호 작용과 연결에 대한 새로운 통찰력을 드러내기 위해 매스 미디어 데이터 활용의 효율성을 입증하는 데 중점 (정치적 관점의 해석이 아님)

 

2. Related work

2.1. Mass media data in the big data era

  • 새로운 시공간 데이터 소스 생성, 개인 중심 데이터 활용 가능
  • 매스 미디어 데이터는 대규모 및 장기 시공간 패턴 분석에 적합
  • 기존 연구 사례

 

2.2. Spatial connection and distance decay effect ★

  • Researchers have employed different models to investigate how distance decay influences the magnitude of interactions between geographic units.
  • 중력 모델은 상호 작용 정도 예측에 효율적이고, 식이 단순하고, 양방향 흐름을 처리할 수 있기 때문에 주로 사용됨
  • "interaction"과 관련된 공간 관련성(spatial relatedness) 연구 주제
    • e.g. 공간 근접성(spatial proximity), 속성 유사성(attributive similarity), 공간 상호작용(spatial interaction)
    • 중력 모델은 공간 연결성을 모델링하고 특정 유형의 공간 연관에 대한 거리의 영향을 논의하는 데 활용됨
    • 이러한 공간 관련성의 단방향 및 양방향 연결을 모두 탐구

 

2.3. Time series data and dynamic time warping (DTW)

  • 시계열 분석에서 중요한 연구 질문 중 하나는 두 시계열이 유사한 지 여부를 찾는 것
  • 본 연구는 spatial decay effect 뿐만 아니라 시계열 패턴도 파악하며, 국가 간 연결 강도의 시계열 유사성을 정량화하기 위해 DTW를 활용함
  • 본 연구에서 중국과 외국 간의 연관성은 인과관계가 아닌 상관관계를 나타냄

 

3. Research design 

3.1. Dataset  

3.1.1. Main dataset: GDELT

  • CAMEO-coded dataset은 매일 업데이트되며 1979년부터 2억 5천만 개가 넘는 뉴스 이벤트 기록으로 구성. 이벤트의 평균 "어조(tone)"는 해당 이벤트에 대해 하나 이상 언급된 모든 문서를 포함하여 계산됨

 

3.1.2. Complementary datasets

  • 두 개의 보완 데이터(Flickr, Airline carrier)를 더 활용하여 다양한 성격을 지닌 데이터 세트(예: 대중 매체, 소셜 미디어 및 대중 교통 데이터)에서 거리의 역할을 탐색

 

3.2. Methodology

  • Data preprocessing
    • 국가 수준의 지오코딩이 포함된 중국과 다른 국가 관계에 대한 뉴스 추출
    • 연도 $y$에서 다른 나라 $i$와의 "co-occurrence" 빈도는 $F_y(i,c)$로 표현
  • 공간 조락 효과(spatial decay effects) 모델링 및 해석
    • $I_{ij}=K\frac{P_iP_j}{D_{ij}^{\beta}}$ 
      • $P_i$와 $P_j$는 $i$와 $j$의 개념적 사이즈(conceptual sizes, 상대 중요성)
      • $D_{ij}$는 거리
      • $I_{ij}$ $i$와 $j$ 사이의 상호작용 또는 연결
      • 거리 마찰 계수(distance friction coefficient) β의 가장 적합한 값을 비교하기 위해 세 가지 중력 모델을 구성
    • fitted and observed $I_{ij}$ 사이의 Pearson 상관관계($R^2$)를 평가하여 β의 최적값 계산
      • β 값이 높을수록 거리 조락 효과가 더 강하다는 것을 나타냄
    • 2008-2012 데이터 활용
  • 시간 시리즈 데이터 모델링 및 해석
    • DTW 활용
      • 먼저 DTW 그리드 구성, 각 그리드 셀 내부에 두 시계열의 해당 요소(여기에서는 절대 차이 사용)를 비교하기 위해 거리 측정, 두 시계열 간의 DTW 거리는 전체 거리를 최소화하는 그리드를 통과하는 경로로 간주
    • 국가 간 유사성과 차이점을 보기 위해 계층적 클러스터링 수행
      • Calinski-Harabasz(CH index) 지수를 활용하여 클러스터 내 분산과 클러스터 간 분산 조합으로 클러스터 수 결정

 

4. Analysis results and discussion  

4.1. Spatial decay effect

  • 거리는 Flickr 데이터 세트(β = 0.12, R2 = 0.9997)에서 가장 영향력이 작고 , GDELT 데이터 세트(β = 0.74, R2 = 0.9252), 국제 항공 데이터(β = 1.51, R2 = 0.7926)에서 강한 영향력을 보임
    • 소셜 네트워킹 사이트에서 자발적으로 제공되는 지리 정보가 대중 매체 데이터나 대중 교통 데이터보다 약한 거리 감소 영향을 가짐

4.2. Clustering time series

  • 동시빈도를 기반으로 국가 $I$가 중국에 얼마나 중요한 지에 대한 "일방향" 효과 분석
  • 상대적 비교를 위해 [0,1] 데이터로 정규화한 뒤 1979-2012년 사이의 최대값으로 나누어, 최대값을 (1.000)로 표현
  • CH index 결과에 따라 클러스터를 4개로 분류
    • 1: normalized connection strengh가 처음에 감소한 뒤 점차 증가
    • 2: normalized connection strengh가 꾸준히 증가
    • 3: normalized connection strengh가 안정적
    • 4: normalized connection strengh가 꾸준히 감소

 

4.3. Discussion

  • DTW 거리 기반 클러스터링 분석은 두 시계열의 피크가 정확히 정렬되지 않아도 패턴 분석 가능

 

5. Conclusion

  • 본 연구의 목적은 대규모 시공간적 규모의 국가 간 연결을 분석하기 위해 매스미디어 데이터 활용의 타당성 분석
  • GDELT 데이터 세트를 활용하여 시계열 모델링과 클러스터링 분석을 기반으로 중국과 외국 간의 연관성을 분석
  • 이 연구의 기여
    • fit $β$ value는 소셜 미디어 < 매스 미디어 < 국제 항공 운송으로 나타남
    • DTW가 매스 미디어의 시계열 분석에 효율적이었음
    • GDELT에서 추출한 패턴은 무역, 역사 이벤트 등의 2차 데이터를 통해 검증 가능
  • 향후 연구에서는 연결 강도와 인구/경제 및 어조 등의 상관관계 분석 가능
728x90
반응형