[지암 연구 워크숍 #9] 빅데이터를 활용한 국가간 갈등/협력관계 연구의 성과와 한계

2022.02.19

일시 : 2022.2.18 (금) 16:30~18:00
장소 : 대면/비대면 병행 (정경관 412호 및 Zoom 동시 송출)
주제: “빅데이터를 활용한 국가간 갈등/협력관계 연구의 성과와 한계”
사회 : 임종인 (고려대 정보보호대학원 원장)
발표: 정승철 (제주평화연구원 연구실장), “빅데이터를 활용한 국가간 갈등/협력관계 연구의 성과와 한계”
토론: 김남규 (고려대 정치외교학과 교수), 고지영 (고려대 정치외교학과 교수)

2022년 2월 18일, 고려대학교 평화와 민주주의연구소 제 9회 지암(芝巖) 연구 워크숍이 “빅데이터를 활용한 국가간 갈등/협력관계 연구의 성과와 한계”를 주제로 진행되었습니다.

발표) 빅데이터를 활용한 국가간 갈등/협력관계 연구의 성과와 한계 (정승철, 제주평화연구원 연구실장)

오늘날 빅데이터는 수많은 분야에서 주목받고 있다. 국제관계 분야 역시 이러한 흐름에 맞추어 빅데이터를 활용해 국가 간 관계가 긍정/부정적인지를 측정한 연구가 주목받고 있다. 그동안 국제관계 분야에서도 다수의 연구자들이 양적연구방법을 활용한 각종 연구를 활발하게 수행해 왔다. 하지만 데이터를 구축하는 과정의 어려움으로 인해 국가 간의 관계를 정밀하게 측정하고 수치화하는 데에는 어려움이 있었다. 이에 따라 연구자들은 Correlates of War 프로젝트의 국가 간 무력분쟁 (Militarized Interstate Dispute: MID) 데이터 또는 Voeten, Strezhnev, and Bailley의 유엔총회투표 데이터(United Nations General Assembly Voting Data)를 활용하여 국가 간의 관계를 수량화하였다. 다만 이 데이터들은 두 국가 간의 관계를 정밀하게 측정하는데 한계가 있었다. MID 데이터는 (종류에 따라 차이는 있지만) 특정 연도에 국가 간에 무력분쟁/전쟁이 발생하였는지에 따라 국가관계를 0(무력분쟁/전쟁 발생하지 않음) 또는 1(무력분쟁/전쟁 발생)로 구별, 입력하였다. 이를 통해 연구자들은 국가 간 무력분쟁 발생 가능성에 관한 연구를 진행할 수 있었다. 하지만 MID 데이터를 사용할 경우 무력분쟁과 같이 국가 간에 발생하는 가장 극단적인 갈등만을 측정할 수 있을 뿐 그 외 국가 간 빈번하게 발생하는 외교적 비난, 무역제재, 거절, 경고 등과 같이 무력을 동반하지 않는 다양한 갈등은 고려할 수 없었다. 또한, 정상회담 개최, 협정체결, 원조제공 등과 같은 국가 간 협력 사례도 MID 데이터를 통해서는 알 수가 없다. 이에 MID 데이터는 실제로 국가 간에 벌어지는 사건에 대해 누락되는 정보가 많기에 국가 간 관계를 세밀하게 측정하지 못한다는 단점이 있다. 유엔총회투표 데이터의 경우 특정 연도에 유엔총회결의안에 대해 같은 (찬성/반대/기권) 표를 행사한 비율을 바탕으로 S-score 혹은 Ideal Point를 산출하여 두 국가 간의 관계를 측정한다. 두 국가가 유엔총회결의안에 같은 표를 행사하는 비율이 높을수록 외교관계에 있어서 그들 간에 선호도 혹은 이해관계의 유사도가 높다고 보는 것이다. 그리고 이처럼 선호도와 이해관계의 유사도가 높은 국가들은 협력할 가능성이 높다는 연구결과를 바탕으로 이를 국가 간 관계를 측정하는 양적 데이터로 연구자들이 활용한 것이다. 하지만 유엔총회투표 데이터 역시 두 국가 사이의 직접적인 (갈등/협력) 상호작용을 기반으로 이들 간의 관계를 측정한 것은 아니라는 한계가 있다.

이처럼 여러 한계가 있음에도 불구하고 그동안 MID와 유엔총회투표 데이터를 활용하여 국가 간 관계를 수치화하였던 이유는 이외에 대안을 찾기 어려웠기 때문이다. 과거부터 국가 간의 관계를 정밀하게 측정하기 위해 언론기사를 사용하려는 시도가 여러 번 있었다. 언론기사를 기반으로 전 세계 각지에서 벌어진 사건에 대한 정보를 수집하고자 하는 학계의 노력은 1960년대와 1970년대부터 시작되었다. 당시에는 미국 국무부와 (국방부 산하 연구개발 조직 중 하나인) 고등연구계회국(Defense Advanced Research Projects Agency: DARPA)이 이러한 프로젝트들을 후원하였다. 그 결과 1970년대와 80년대 World Event/Interaction Survey (WEIS)와 Conflict and Peace Data Bank (COPDAB) 사건 데이터(event data)가 등장할 수 있었다. 이후 컴퓨터 기술은 꾸준히, 급속도로 발달하였고 이에 따라 1990년대 후반에 이르러서는 머신코딩이 휴먼코딩을 거의 모두 대체하는 단계에 이르렀다. 그리고 2009년에 DARPA의 후원을 받은 Integrated Crisis Early Warning System(ICEWS)이 등장함에 따라 29개의 국제, 지역 언론으로부터 정보를 추출하고 사건 데이터를 구축하는 것이 가능해졌다. 이어서 2013년에 이르러서는 마침내 수억 단위로 뉴스기사를 다루는 빅데이터GDELT(Global Database of Events, Language, and Tone)가 등장하였다. GDELT의 장점은 주로 연도별로 업데이트, 발표해오던, 그리고 국가를 주요행위자로 간주한 기존 데이터들과 달리 연구자의 필요에 맞춰 유연하게 데이터를 가공할 수 있다는 것이다. 즉, 국가 간 관계를 일, 주, 월, 분기, 반기, 연도 등 연구자의 필요에 따라 기간을 조절할 수 있으며 또한 국가(주로 행정부) 외에도 입법부, 사법부, 군대, 기업, 환경단체, 시민단체, 미디어 등 행위자를 다양하게 설정, 정보를 추출할 수 있다.

하지만 GDELT도 단점과 학술활용에 있어 한계가 존재한다. 방대한 데이터를 기계에 분류를 맡긴 이상 거짓 양성 데이터 즉 노이즈가 많이 발생한다. 예를 들어 국제스포츠 기사를 들 수 있다. 미국과 러시아 간 축구 경기가 있다는 것을 가정했을 때 기사에 ‘공격’과 ‘방어’ 같은 무력과 연관된 단어와 함께 ‘미국’, ‘러시아’가 함께 탐지된다면 기계는 이를 미국과 러시아 간 분쟁으로 간주할 수도 있다는 뜻이다. 매우 간단한 예시지만 실존하는 함정이며, GDELT는 꾸준히 이를 개선하고 있지만 2010년대 중반까지 학술적으로 활발하게 활용되던 추세와 달리 현재는 학자들이 이를 사용하는 데 있어 더욱 조심스러운 태도를 보이고 있다.