숫자로 말하는 취재, 데이터 저널리즘의 실제 작업 흐름

데이터 저널리즘이 주목받기 시작한 건 2010년 WikiLeaks의 아프가니스탄 전쟁 일지 공개를 Guardian, Der Spiegel, New York Times가 공동으로 데이터 분석 방식으로 보도하면서부터다. 그 이후 전 세계 뉴스룸에서 데이터팀이 독립 조직으로 자리 잡았고, 지금은 중소 매체도 스프레드시트 하나로 의미 있는 탐사 보도를 만들어내는 환경이 됐다. 문제는 데이터를 다루는 기술이 아니라 어떤 질문을 데이터에 던져야 하는지다.

질문 설계가 전부다

데이터 저널리즘의 실패는 대부분 질문 없이 데이터를 먼저 구하는 데서 시작된다. “공공기관 예산 데이터가 있으니 뭔가 나오겠지”는 방향이 없는 출발이다. 제대로 된 시작점은 가설이다. “A 구청의 도로 보수 예산 집행률이 인접 구에 비해 낮다면 이유가 있을 것이다”처럼 방향이 있어야 데이터에서 무엇을 찾아야 할지가 보인다.

가설을 세울 때 기준이 되는 건 현장 취재다. 주민 민원, 내부 제보, 현장 관찰이 가설의 재료다. 데이터는 현장에서 감지한 이상 징후를 수치로 확인하는 도구이지, 데이터 안에서 스토리를 찾는 도구가 아니다. 이 순서가 뒤집히면 확증 편향에 빠지기 쉽다. 실제로 데이터에서 패턴을 먼저 발견하고 거기에 맞는 해석을 끼워 넣는 방식은 p-해킹과 동일한 구조의 오류다. 데이터 저널리즘 방법론 매뉴얼은 GIJN 탐사보도 매뉴얼에서 무료로 확인할 수 있다. 데이터 분석 전에 소셜미디어를 통해 유통된 정보의 신뢰도를 먼저 판별하는 방법은 소셜미디어 뉴스 검증 기준에서 다루고 있다.

데이터

공공데이터 수집, 어디서 시작하나

국내에서는 공공데이터포털(data.go.kr)이 가장 큰 단일 창구다. 2024년 기준 7만 건 이상의 데이터셋이 등록되어 있다. 행정안전부, 국토교통부, 보건복지부 산하 기관 데이터가 가장 많고, API 형식으로도 제공되는 항목이 늘고 있다. 공공데이터포털은 데이터셋별 갱신 주기와 제공 형식을 메타데이터로 함께 공개하므로 청구 전 사전 확인이 가능하다. 데이터를 받기 전에 갱신 주기와 마지막 업데이트 날짜를 반드시 확인한다. 2년 이상 업데이트가 없는 데이터셋을 최신 현황 분석에 쓰면 오보로 이어진다.

원하는 데이터가 포털에 없을 때는 정보공개청구가 다음 수단이다. 정보공개포털(open.go.kr)을 통해 온라인으로 청구할 수 있고, 기관별 처리 기한은 원칙적으로 10일이다. 비공개 결정이 나오면 이의신청이나 행정심판을 통해 다툴 수 있다. 실제로 취재에서 유의미한 데이터는 포털에 올라와 있지 않은 경우가 많고, 정보공개청구로 직접 받아야 쓸 수 있는 형태로 나오는 경우가 대부분이다.

데이터 정제 단계에서 가장 시간이 많이 걸린다

실무에서 데이터 정제에 전체 작업 시간의 60% 이상이 들어가는 경우가 흔하다. 공공기관이 제공하는 엑셀 파일은 사람이 보기 편하게 만들어져 있어서 분석에는 바로 쓸 수 없는 형태인 경우가 많다. 병합 셀, 소계 행 삽입, 단위 혼용(천원/백만원 혼재), 날짜 형식 불일치 같은 문제가 반복적으로 나타난다. 같은 기관이 매년 제공하는 데이터라도 담당자가 바뀌면 컬럼 이름이나 코드 체계가 달라지는 경우가 있어서 연도별 병합 전에 반드시 스키마를 비교해야 한다.

정제 도구는 OpenRefine을 기본으로 쓴다. 항목명 통일, 중복 제거, 형식 변환을 GUI 환경에서 처리할 수 있어서 코딩을 모르는 기자도 쓸 수 있다. 규모가 큰 데이터셋은 Python pandas를 쓰는 게 반복 작업에서 효율이 높다. 정제 과정은 반드시 단계별로 로그를 남겨야 한다. 나중에 검증이 들어오거나 업데이트가 필요할 때 처음부터 다시 하지 않아도 되기 때문이다.

분석에서 자주 나오는 실수

상관관계를 인과관계로 쓰는 건 데이터 저널리즘에서 가장 빈번한 오류다. A가 증가할 때 B도 증가한다는 데이터가 있어도 A가 B의 원인이라는 주장은 별도의 근거가 필요하다. 이 구분이 흐려지는 순간 보도는 오해를 만든다. 아이스크림 판매량과 익사 사고 건수가 여름에 함께 늘어난다는 데이터로 아이스크림이 익사를 유발한다고 쓰면 안 되는 것과 같은 이치다.

표본 편향도 주의해야 한다. 신고 데이터, 민원 데이터처럼 자발적 참여로 쌓이는 데이터는 실제 현상을 과소 또는 과대 대표할 수 있다. 경찰 범죄 통계는 신고된 범죄만 집계하기 때문에 미신고 범죄는 포함되지 않는다. 데이터가 어떤 방식으로 수집됐는지를 보도에서 명시해야 독자가 적절하게 해석할 수 있다. 소셜미디어에서 수집한 데이터의 신뢰도 판별 방법은 소셜미디어 뉴스 검증 기준을 참고할 수 있다.

시각화 판단 기준

모든 데이터를 시각화할 필요는 없다. 수치 두세 개를 비교하는 건 표나 문장이 더 명확하다. 시각화가 효과적인 경우는 시간 흐름에 따른 변화, 지리적 분포, 다변수 간 관계처럼 텍스트로 설명하면 오히려 복잡해지는 상황이다. 시각화 선택 전에 “이 차트 없이 텍스트만으로 같은 내용을 전달할 수 있는가”를 먼저 물어본다. 기업 관련 데이터 저널리즘에서는 금융감독원 전자공시시스템(DART)이 재무 수치의 1차 출처로 쓰인다.

시각화

시각화 툴은 Datawrapper가 코딩 없이 쓸 수 있어서 뉴스룸 입문용으로 많이 쓰인다. D3.js는 자유도가 높지만 개발 시간이 필요하다. 어떤 툴을 쓰든 색상 선택에서 색맹 접근성을 고려해야 한다. ColorBrewer2.org에서 색약·색맹 친화적 팔레트를 무료로 제공한다. 국내 기업 재무 데이터는 금융감독원 전자공시시스템(DART)에서 10년치 이상 비교 열람이 가능하다. 공공데이터포털은 국내 데이터 저널리즘의 1차 출발점으로, 기관별 데이터 메타데이터와 갱신 주기를 먼저 확인하는 습관이 취재 효율을 높인다.

보도 전 검증은 외부 눈으로

데이터 분석 결과를 보도하기 전에 해당 분야 전문가에게 방법론 검토를 받는 게 좋다. 통계학자나 해당 정책 분야 연구자에게 분석 과정을 공유하고 오류 여부를 확인하는 절차다. 이 단계를 생략했다가 보도 후 방법론 오류가 지적되는 경우가 실제로 있고, 정정보다 오보가 더 오래 기억되는 게 저널리즘의 현실이다. 전문가 검토 요청은 취재 결과를 미리 공개하는 것이 아니라 방법론만 공유하는 방식으로도 가능하다. Poynter Institute는 데이터 저널리즘 방법론 교육과 사례 연구를 지속적으로 발간하고 있어 방법론 검토의 참고 자료로 유용하다.

원 데이터와 분석 코드를 보도와 함께 공개하는 관행도 점차 확산되고 있다. The Guardian, FiveThirtyEight 같은 매체는 분석에 쓴 코드를 GitHub에 공개한다. 독자가 직접 재현할 수 있게 하는 투명성이 보도의 신뢰도를 높인다. 취재 과정에서 수집한 원시 데이터의 가공 절차를 내부 문서로 보존하는 것도 기본 관행이다.