경향신문 데이터저널리즘팀 다이브는 <내가 만드는 국회의원 순위>에서 활용한 데이터와 분석 방법을 독자 여러분께 공개합니다. 독자 여러분의 신뢰를 구하는 동시에, 저희 스스로 한 뼘 더 나아지려는 노력의 일환입니다.
‘내가 만드는 국회의원 순위’의 계산은 다음과 같은 방법으로 진행했습니다.
10개 부문별 국회의원 순위를 매기는 데는 다소 어려운 점이 있습니다. 몇 년치를 합산하다보니 국회의원별로 지출 액수가 큰 차이가 납니다. 재직 년수가 길고, 정치자금 모금을 많이 한 국회의원일수록 지출액이 큽니다. 단순 액수만을 비교한다면 이용자가 설정한 부문별 가중치보다 지출액 자체가 순위에 더 큰 영향을 끼칠 수 있습니다.
예컨대 홍보 지출은 다른 부문보다 지출 금액이 대체로 높기 때문에 홍보비 지출에 가중치를 조금이라도 부여한다면 홍보 지출이 순위에 영향을 더 많은 영향을 끼칠 수밖에 없습니다.
따라서 공통의 척도를 만들기 위해 국회의원별로 (1) 본인의 정치자금 중 10개 부문별 지출액 비중 (2) 10개 부문별 지출액수 등 두 가지 측면에서 표준점수를 산출했습니다. 10개 부문별로 지출액 비중과 지출액수를 평균이 0이고 표준편차가 1인 분포로 배치되도록 만드는 것입니다. 이를 Z-score라고 하는데 각 값에서 평균을 뺀 뒤 표준편차로 나눕니다. 아래 수식에서 x는 지출액(지출비중), μ는 지출액(지출비중) 평균, σ는 지출액(비출비중) 표준편차입니다.
$$ z = \frac{{x - \mu}}{{\sigma}} $$
지출액 비중과 지출액수의 Z-score를 더한 뒤 2로 나누었습니다. 액수와 비중을 공평하게 50%씩 반영하기 위해서입니다. 또한 Z-score를 좀 더 보기 편한 점수로 바꾸기 위해 20을 곱하고 100을 더했습니다. 이렇게 하면 각 부문별로 상대적으로 다른 의원보다 더 적게 쓴 의원, 그리고 상대적으로 각 부분에 자신이 가진 정치자금을 더 적은 비중으로 쓴 의원은 100점보다 낮고, 더 많이 쓴 의원은 100점보다 더 높은 점수가 산출됩니다. 이는 수능 표준점수를 구하는 방법과 유사합니다.
$$ \text{{표준점수}} = z \times 20 + 100 $$
각 부문별로 구해진 표준점수에 이용자가 설정한 가중치가 곱해집니다. 홍보에 15%를 할당했다면 홍보에 해당하는 표준점수에 0.15가 곱해지는 셈입니다. 지출액이 0이거나 마이너스(쓴 금액을 국회로부터 보전받거나 한 경우)인 경우에는 일괄적으로 0으로 처리했습니다. 이렇게 모든 부문별 가중치 점수를 구해서 더하면 최종적으로 순위를 매기는 점수가 산출되게 됩니다.
국회의원 정치자금 지출내역 데이터는 오마이뉴스가 공개한 2012~2022 정치자금 데이터를 사용했습니다. 2022년 데이터는 경향신문, 뉴스타파, 오마이뉴스가 공동으로 작업했습니다.
참고로, 이 사이트는 뉴욕타임스의 ‘나만의 대학 순위 만들기’의 방법론과 사이트 구조를 참조했음을 밝힙니다.