경향신문 데이터저널리즘팀 다이브가 <노처녀가 사라졌다>에서 활용한 데이터와 데이터 분석 방식을 공개합니다.

다이브는 한국언론진흥재단 뉴스 빅데이터 서비스 ‘빅카인즈’에서 제공하는 2011~2021년 전국 일간지 10개 매체의 온라인 기사 763만8139건을 전수분석 했습니다.

  1. 분석 대상 : 경향신문 국민일보 내일신문 동아일보 문화일보 서울신문 세계일보 중앙일보 한겨레 한국일보 등 10개 전국 일간지 (조선일보는 2018년 이전 빅카인즈 데이터가 없어 분석 대상에서 제외함)
  2. 분석 기간 : 2011~2021년

언론이 여성을 묘사하는 방식에서 느꼈던 불편함과 변화를 촉구하는 목소리가 언론에 어떤 변화를 만들어왔는지 가늠해보려 합니다. 자세한 내용은 아래 링크에서 확인할 수 있습니다.

헤드라인 속 노처녀가 사라졌다

여성이 등장하는 헤드라인과 아닌 헤드라인


여성 헤드라인(여성을 지칭하는 표현이 들어간 제목)과 비여성 헤드라인(여성을 지칭하는 표현이 없는 제목)을 구분하기 위해 한글 자연어를 처리하는 AI 모델을 만들었습니다. AI 모델은 KcBERT, KcELECTRA를 제작한 이준범님과의 협업으로 제작했습니다.

train_data_2011_2021_train_added.xlsx

모델을 학습시킬 때 사용했던 데이터셋 by. 다이브

모델 학습에 사용했던 9324개의 헤드라인입니다. 모델에게 판단 기준을 제시해주는 학습용 데이터로 사람이 직접 입력한 값들입니다. 여성 헤드라인 해당 여부를 ‘yes’(여성 헤드라인), ‘no’(비여성 헤드라인)로 구분했습니다. 기준은 이렇습니다. 여성을 지칭하는 단어가 들어가면 yes입니다. ‘녀’, ‘엄마’, ‘여성’ 등이 해당됩니다. ‘남녀’, ‘자녀’와 같이 여성 외의 대상이 포함된 단어는 제외했습니다. 특정 인물의 이름(ex. 김연아, 윤여정, 아이유)도 제외했습니다.

모델의 옵션 및 성능

모델의 옵션 및 성능

위 표는 다이브가 활용한 AI 모델의 옵션 및 성능표입니다. 해당 모델에 헤드라인을 넣으면 모델이 yes, no로 구분하고 이 판단이 맞을 확률을 제시합니다. 여성 헤드라인과 비여성 헤드라인을 구분하고 확률을 계산하는 방식은 아래와 같습니다. 여기 경향신문이 2021년 12월에 작성한 헤드라인 3개가 있습니다.