설문조사! 우리가 직접 하고 싶을 때 ‘꼭’ 알아야 할 것들: 사회조사 기초 강의



설문조사! 전문가에게 맡겨도 되지만, 

우리가 직접 하고 싶을 때 ‘꼭’ 알아야 할 것들: 사회조사 기초 강의


지난 11월 17일 오후, 창덕궁의 가을 풍경이 창밖으로 펼쳐진 아늑한 공간에서 서울노동인권복지네트워크(이하 서로넷)를 위한 <통계설문 데이터 읽기 분석-사회조사 기초> 교육이 진행되었습니다. 미국 시카고대학에서 사회학을 공부 중이며, 코로나 19를 잠시 피해 한국에서 논문을 준비 중인 조홍진 님께서 강의를 해주셨어요. 서로넷 참여 네트워크 중 한국비정규노동센터, 서울시 감정노동종사자 권리보호센터, 서울노동권익센터 관계자들과 함께 약 2시간 동안 강의를 들었는데요, 그 내용과 질의응답 등을 정리해서 공유해드립니다.


강의는 사회조사란 무엇이고 어떻게 이루어지는가에 대한 필수 개념 소개, 사례 탐구, 사회조사를 위한 다양한 접근 방법들을 소개로 이루어졌습니다. 그리고 서로넷이 지난 5월 진행한 설문조사에서 어떻게 하면 좀 더 유의한 답변을 얻을 수 있을 것인가에 대한 개선안을 제안하셨어요.


#1. 사회조사란 무엇인가?


사회조사에는 세가지 목적이 있습니다.

 

  • 첫째, 탐색(exploration)적인 목적입니다.

    • 예를 들어, 조사하고자 하는 현상이 있는가, 없는가에 관해 질문을 던집니다.

    • 다만, 작은 케이스 중심이라 대표성에 한계가 있는 경우가 많습니다.

  • 둘째, 현상을 기술(description)하는 것입니다.

    • 가령 인구조사(census) 등이 있는데요. 무엇이, 어디서, 언제, 어떻게 등의 항목에 따라 현상을 기술하는 것이지요.

  • 셋째, 현상을 설명(explanation)하는 것입니다.

    • 왜 이런 현상이 벌어지는가를 인과관계 중심으로 설명하는 것이지요.


조사를 할 때는 분석단위 즉 조사 대상을 설정하게 됩니다. 


조사 대상은 개인, 집단, 조직일 수도 있고, 사회적 상호작용이나 사회적 가공물인 경우도 있어요. 사회적 가공물이란 예를 들어 어린이 책에서 성 역할을 어떻게 설명하고 있는가 등을 조사의 대상으로 삼는 것입니다.


분석과정에서 분석단위와 결론의 연결에서 빠지기 쉬운 오류가 있습니다.


  1. 첫 번째는 생태학적 오류(ecological fallacy)입니다.

  • 가령 개인을 대상으로 조사를 할 때 우리는 그의 가족 또는 그가 속한 회사, 지역사회 등 큰 단위로 볼 수도 있고 개인(인간)의 유전자나 성격 등 훨씬 미시적인 단위로도 볼 수 있습니다. 이때 생태학적 단위의 특성이 그 안에 속한 개인들을 설명해준다는 가정이 바로 생태학적 오류입니다.

  • 예를 들어보겠습니다. ‘A 선거구는 B 선거구보다 나이 든 유권자가 많습니다. 여성 후보자는 젊은 유권자가 더 많은 B 선거구에서 득표율이 더 높았습니다.’

    • (결론) 연령이 여성 후보를 지지하는 데 영향을 미친다.

    • (오류) 분석 단위는 투표자 개인이 아닌 선거구였습니다.

    • 즉 해당 여성 후보자는 B 선거구에서 나이 든 유권자들의 지지를 통해 당선되었을 수 있습니다.

    • (해결) 유권자 개개인을 조사해서 연령에 따른 성별 지지에 차이가 있는지 조사해야 합니다.


  1. 두 번째는 환원주의(reductionism)입니다.

  • 이는 특정한 현상을 제한적인 개념 또는 하위 개념으로 설명하려고 하는 것입니다.

    • 예를 들어 ‘인간은 이타적으로 진화했다.’는 주장이 있습니다.

    • (결론) 인간의 본질은 유전자다.

    • (오류) 유전자를 분석단위로 조사했으나, 인간에 대해 결론 내렸습니다.

    • 즉 유전자가 중요한 역할을 했을 수 있으나 다른 요인도 있을 수 있지요.

    • (해결) 분석단위를 적절하게 재설정하거나 다른 요인들에 대한 고려도 필요합니다.


시간 차원에서 봤을 때, 사회조사는 크게 횡단연구와 종단연구,

두 가지로 구분할 수 있습니다.


  1. 횡단연구

  • 어느 한 시점에서 사람이나 상황의 표본 혹은 단면을 관찰합니다.

  • 다만, 한 시점을 조사하는 것이기 때문에 여러 시점을 거쳐 발생하는 인과과정 추론에 한계가 있습니다.

  • 그래서 종단연구가 더 선호되는 편입니다.

     

  1. 종단연구

  • 동일한 현상을 긴 기간 동안 관찰하는 것입니다.

    • 추세연구: 시간에 따른 모집단의 변화를 조사 (예) 선거 지지율 조사 등

    • 코호트 조사: 하위 집단을 대상으로 특정 집단이 어떻게 변동하는가 조사하는 형태로 모집단은 동일하지만 조사 시점마다 샘플이 달라질 수 있음 (예) 아동발달연구처럼 아동집단을 구성하고 이들이 성장하면서 어떤 변화를 보이는가를 추적 조사

    • 패널 연구: 표본을 구성하고 이들 표본집단을 장기적으로 조사 (예) 한국노동패널 

  • 장기적으로 반복해서 조사가 이루어지는 만큼 시간과 금전적인 부담이 있을 수 있습니다. 하지만 시간 변화에 따른 표본 변화를 더욱 인과성 있게 설명할 수 있습니다. 특히 패널 연구는 같은 대상을 장기적으로 관찰하기 때문에 현상을 더욱 명확히 설명할 수 있습니다.


#2. 사회조사란 어떻게 하는가?



[그림 1] 사회조사의 과정 (출처: Earl R. Babbie. 2007. 사회조사 방법론)


위 그림은 사회조사의 과정을 도식화한 것입니다. 가장 먼저 흥미로운 현상이나 궁금한 것들이 생겨나면 왜 그런 현상이 벌어지는 걸까, 어떻게 그런 걸까를 고민하게 되지요. 거기서 아이디어를 얻고 즉 가설을 설정하고 이를 기초로 이론을 구성합니다.


어떤 현상이 일어났을 때 이런 상황을 만든 (가변적) 요인은 무엇인가를 생각하게 되는데요, 이를 변수라고 합니다. 변수의 구체화와 조작화를 통해 조사에 필요한 변수를 설정하고, 실험, 서베이, 현장 조사, 내용분석 등 다양한 조사 방법 중에서 가장 적절한 방법을 선택합니다.


우리가 설문조사를 한다면 모집단을 선정하고 표집을 합니다. 모집단이란 내가 알고 싶은 전체 대상을 말합니다. 가령 한국의 인구 혹은 서울시 노동자 등이 대상이 될 수 있겠지요. 이들을 모두 다 조사하면 가장 좋겠지만, 비용부담 등 한계요인이 있습니다. 그래서 표집(샘플링)을 통해서 표본을 구성합니다. 이후 자료 수집과 관찰, 수정 보완의 과정을 거쳐서 분석에 적합한 데이터로 변환하고 분석을 진행한 뒤 조사의 결론을 짓는 일련의 과정이 이루어집니다. 여기서는 이 과정에서 꼭 알아야 할 것들을 중심으로 살펴보겠습니다.


변수의 서열 측정


설문조사에서 흔히 하는 질문, 가령, 성별은 무엇입니까? 소득은 얼마입니까? 등에서 변하는 대상, 매개물을 변수라고 합니다. 이 중 많이 쓰이는 형태가 지수(index)와 척도(scale) 변수입니다.

  

  1. 지수(index)

  • 몇 개의 구체적인 관찰치들을 요약하고 서열을 매겨 좀 더 일반적인 차원을 대표하는 합성측정입니다.

  • 물가지수를 대표적 예로 들 수 있습니다. 서울의 물가지수를 만들 때 와인, 빵, 고기 등 다양한 조합으로 개별 속성들에 할당된 점수를 합산해서 만들기도 합니다.

  • 지수의 사례

    • 정치적 행동에 대한 지수를 만든다면,



[그림 2] 지수 구성을 위한 정치적 행동의 예 (출처: Earl R. Babbie. 2007. 사회조사 방법론)


    • 위와 같은 행동에 대해 1점씩 부여합니다. 즉 이들 중 몇 가지를 해본 적 있는지 물어보고, 다 해봤으면 6점, 두 개면 2점 등을 주는 것이지요.

    • 숫자로 환원 가능한 지수를 형성해서 분석을 통해 한국 사람들이 정치적으로 어느 정도 참여하는가를 설명할 수 있습니다.


  1. 척도(scale)

  • 문항들 사이의 논리적 또는 경험적 구조를 갖는 합성측정입니다.

  • 지수와 달리 하나의 방향성을 가지고 있습니다. 사회경제적 지위, IQ 등을 예로 들 수 있습니다.

  • 척도의 사례

    • 정치적 행동에 대한 척도를 만든다면,


      [그림 3] 척도 구성을 위한 정치적 행동의 예 (출처: Earl R. Babbie. 2007. 사회조사 방법론)


    • 위와 같이 각 행동에 가중치를 다르게 둘 수 있습니다. 기부금 내기와 본인의 공직 출마는 적극성에서 무척 차이가 있지요? 그런 차이를 반영하는 것입니다.


👉 즉 지수는 같은 수준의 행위들을 묶어서 수량화했다면, 척도는 차이가 있는 걸 드러내서 수량화하는 것입니다.


지수의 구성

지수 구성은 총 4단계로 이루어집니다.


  1. 문항 선정

  • 이 단계는 문항이 측정하고자 하는 내용을 나타내고 있는지 즉 문항의 액면/논리적 타당도를 점검합니다.

    • 예를 들어 ‘저명한 보수주의자 견해를 지지하는가?’란 질문은 응답자가 얼마나 보수적인가를 확인하고자 하는 것이지요.

  • 단일 차원성은 질문이 개념의 한 차원만을 나타내야 합니다.

    • 즉 정치적 보수주의를 확인하고자 한다면, (비록 정치적 보수주의와 종교적 근본주의가 서로 관계가 있다고 경험적으로 알더라도) 종교적 근본주의를 묻는 문항들이 포함되어서는 안 됩니다.

  • 구체성의 정도는 동일한 차원 즉 동일한 레벨에서 측정이 이뤄져야 한다는 것입니다.

    • 예를 들어 정치적 탄원서에 서명하기, 정치적 목적 기부금 내기, 후보로 출마하기, 정치인에 기부금 내기 등은 동일한 차원이 아닌 항목을 포함하고 있어 수정이 필요합니다.

  • 문항은 변이를 제공해야 합니다.

    • 즉 지수를 구성하기 위해 다섯 개의 질문을 했을 때, 어떤 문항의 특정 답변에 응답이 100% 집중되었다면 이는 별 의미 없는 문항이라고 할 수 있습니다.

    • 선택지가 4개라면 응답이 가급적 25%씩 나눠질 수 있도록 선택지를 구성해야 합니다.


  1. 문항 간의 경험적 관계 검사

  • 응답자가 하나의 질문에 어떤 답을 했을 때, 다른 문항에 어떻게 답할지 예측할 수 있는 경우 경험적 관계가 성립한다고 합니다.

    • 이때 각 문항이 동일한 변수를 나타낸다고 주장할 수도 있고, 두 문항 모두 지수에 포함할 수도 있습니다.

    • 문항들 사이의 관계는 이원(bivariate)관계, 다원(multivariate) 관계로 분류할 수 있습니다.


  1. 지수 점수화

  • 지수를 점수화할 때는 문항을 선택하고 점수를 할당해서 합성측정 즉 점수를 만듭니다. 지수가 측정하는 범위와 지수에 포함될 적절한 사례 수는 정해져 있는 것이 아니라 적절한 타협점을 찾는 게 필요합니다. 

    • 따라서 본격적인 설문을 하기 전에 최소 10명 단위에서 파일럿 테스트를 해보는 게 좋습니다. 모두가 동일한 답을 하거나 혹은 답을 전혀 안 하는 문항 등을 확인 후 이를 조정해서 설문해야 합니다.

  • 가중치는 필요한 경우에 부여하면 됩니다.


  1. 지수 타당도 검사

  • 이 과정은 지수가 문항과 얼마나 타당한가를 검사하는 것입니다.

  • 내적 타당도 지수를 구성하는 개별 문항과 지수의 관련 정도

    • (예) 보수주의 측정 지수라면 “나는 사회가 지금 상태로 유지되어야 한다”라는 문항에 대한 답변은 점진적으로 증가해야 합니다.

    • 특정 문항이 지수에 아무런 도움이 되지 않으면 배제하는 게 좋습니다.

  • 외적 타당도 지수에 담긴 인과관계가 다른 조건에서도 일반화될 수 있는 정도

    • (예) 정치적 보수주의 지수에서 보수적인 사람은 다른 문항에서도 보수적으로 나타나야 합니다. 즉 경제적 보수주의 문항에서도 같은 경향성을 보여야 한다는 것이지요.


  1. 결측 자료 처리

  • 설문조사 응답을 보면 기타를 선택하거나 답변을 안 하고 넘어가는 경우가 있습니다. 이를 잘 처리해야 유의미한 분석이 될 수 있습니다.

    • 상대적으로 무응답 등이 적을 때, 5~10% 정도면 결측치를 배제하고 분석

    • 만약 무응답에 경향성이 있다면 결측치를 하나의 응답으로 처리해서 해석해야 함

  • 결측치가 생겼다고 해서 무조건 배제하면 표본의 대표성이 편향될 수 있기 때문에 이는 좋은 방법이 아닙니다. 결측 자료에 점수를 부여하여 그러한 사례를 포함하면 연구 결과가 달라질 수 있습니다. 가장 안전하고 좋은 방법은 하나 이상의 방법을 사용해 지수를 구성하고 각각의 지수를 사용해도 동일한 결론에 이르는지 보는 것입니다.


척도의 구성

척도를 구성할 때는 지수보다 확실한 서열을 나타내기 위해 변수마다 강도를 다르게 부여합니다.

  • 대표적인 척도로 리커트 척도를 들 수 있습니다.

    • ‘매우 찬성’, ‘찬성’, ‘중립’, ‘반대’, ‘매우 반대’ 등 응답범주가 명확한 서열을 가집니다.

    • 설문지를 처음 본 사람도 개념적으로 이해하기 쉬운 장점이 있습니다.

    • 분석을 할 때는 문항의 방향을 고려해서 점수를 부여합니다.

    • 질문을 할 때 방향이 일관되어야 합니다.

      • 즉 ‘현 정부에 어떻게 평가하십니까’라는 대질문을 한 뒤 하위 질문에서 ‘찬성하십니까’라고 물은 다음에 ‘반대하십니까’라고 방향을 바꿔서 물으면 합산에 어려움이 따릅니다. 따라서 방향성 통일이 중요합니다.


표집


설문조사에서 무엇보다 중요한 과정이 표집(sampling)입니다. 표집이란 알고자 하는 대상 전체를 조사할 수는 없으니 대표하는 하위 그룹을 어떻게 구성할 것인가에 관한 것입니다. 비확률표집(non probability sampling)과 확률표집(probability sampling)이 있습니다.


  1. 비확률표집

  • 내 주변에 물어볼 수 있는 사람들 즉 가족, 친구, sns 친구 등 이용 가능한 연구대상자들에게 질문하고 응답을 받는 방식입니다. 표본의 대표성이 떨어진다는 문제가 있습니다. 따라서 양적 연구에서는 비확률표집을 쓰지 않습니다.

  • 비확률표집 중 하나인 유의적/판단적 표집(purposive/judgmental sampling)은 목적이나 판단을 내포하고 조사하는 경우, 모집단이나 그 요소에 대한 지식, 연구목적에 기초한 표본 추출 방식입니다.

  • 눈덩이 표집(snowball sampling)은 인터뷰 등의 질적 연구에서 많이 사용합니다

    • 가령 성인 중에 뽀로로를 좋아하는 사람이 얼마나 되는지 궁금해서 주변 사람한테 묻고, 또 그 주변 사람들을 소개받아서 묻는 방식입니다.

  • 할당표집(quota sampling)은 모집단 특성 표를 만들고 할당표본을 구성하는 방식입니다.

    • 가령 1~80살까지 인구를 조사하고 이를 지역, 성별 등으로 나눠보면 각각의 비율을 알 수 있습니다. 이걸 따져서 표본을 정합니다. 10세 미만은 수가 적고, 40세 이상은 수가 많다면 샘플링에서도 그런 비율로 할당을 해서 표본을 구성하고 설문을 하는 것이지요.

    • 어느 정도는 표본 대표성을 갖출 수 있지만, 다양한 모집단 특성 중 쉽게 식별 가능한 요소들로만 한정하다 보니 대표성이 완벽하지는 않습니다.


  1. 확률표집

  • 표본에서 커다란 모집단을 일반화함으로써 대규모 모집단에 대한 정밀한 통계적 기술을 목표로 하는 표집 형태로, 모집단의 특성을 반영한 표본을 랜덤하게 구성해서 조사하는 무작위 추출(random selection) 방식을 활용합니다.

    • 모집단(population)은 연구와 조사를 통해서 이해하고 싶은 집단 전체를 말하며, 대표성(representativeness)이란 표본의 특성이 모집단과 동일한 특성을 가지는 속성을 말합니다.

    • 모집단의 특성(변수)을 보여주는 것을 모수(parameter)라고 합니다. (뽀로로를 좋아하는 성인을 조사했을 때 ‘그 값이 몇 명이다’라고 하는걸) 통계치(statistic)라고 하고, 통계치를 통해서 모수를 추정합니다.


👉 설문조사의 결과를 과학적으로 말이 된다고 주장하기 위해 샘플링이 중요합니다.


표집 설계

  • 단순(simple) 무작위 표집

    • 일련의 무작위 숫자 산출 후 해당 단위의 표본을 포함하는 방식입니다.

  • 체계적(systematic) 표집

    • 전체 목록의 k번째 요소를 체계적으로 표본에 포함하는 방식으로 k=모집단 크기/원하는 표본의 크기

  • 많이 사용하는 방식은 층화(stratified) 표집 또는 집락(cluster) 표집

    • 층화 표집은 샘플링 전에 모집단 구성단위를 동질적으로 집단화하는 방식으로 표집오차를 감소 시켜 대표성을 향상할 수 있습니다.

    • 집락 표집은 연령대, 성별, 거주지역 등 자연적 집단(집락)으로 나눠서 표집 후 선정된 집단에서 구성원을 추출하는 다단계 방식으로 소수를 연구하지만, 전체를 해석할 수 있게 하는 방식입니다.


서베이(설문조사)

  • 개인을 분석단위로 할 때 주로 사용하는 방식으로, 직접 관찰하기에 모집단이 너무 큰 경우에 활용합니다.

  • 확률표집을 통해 모집하고, 모집단 특성을 반영한 응답자 집단과 신중하게 구성되고 표준화된 설문이 있다면 모집단을 대표하는 결과를 낳을 수 있습니다.


구조화된 설문지를 위한 지침


  1. 적절한 질문 형태

  • ‘어떻게 생각하십니까’라고 물었으면 그다음 질문도 같은 형태로 하는 게 좋습니다. 즉 처음에 진술로 물었으면 계속 진술로 묻는 것이지요. 즉 구조적이고 체계적이고 단순하게 질문을 구성해야 합니다.

  • 응답자가 직접 쓰는 서술형/개방형 질문보다는 선택하는 폐쇄형 질문이 좋습니다. 폐쇄형 질문은 두 가지 구조적 조건을 따라야 합니다.

    • 제공된 응답의 범주가 포괄적이어야 합니다. 예를 들어 ‘당신은 남성입니까?’라고 묻는 것보다는 남성/여성/응답 거부/규정 안 함 등 포괄적인 응답을 제시해줘야 합니다.

    • 응답 범주는 상호배타적이어야 합니다. 예를 들어 남성이면서 여성이라고 생각하는 경우도 있기 때문에 ‘특정 성으로 규정하지 않는다’ 등의 응답도 있어야 합니다.


  1. 문항의 명료화

  • 특히 쌍렬식 질문은 피하는 게 좋습니다.

    • 예를 들어 ‘a 정책을 중단하고, b 정책을 시행해야 한다고 생각하십니까’라고 물을 때, 응답자는 ‘a 정책 중단’ 또는 ‘b 정책 시행’ 각각에 관한 질문인지 혹은 ‘두 가지 모두’에 대한 질문인지 헷갈릴 수 있습니다.


  1. 충분한 인지와 대답 능력을 갖춘 응답자

  • 가령 뽀로로를 모르는 사람한테 가서 뽀로로를 좋아하냐고 묻는 건 애초에 유의미한 설문이 될 수 없습니다.


  1. 응답자가 적극적으로, 기꺼이 대답할 수 있는 질문

  • 가령 소득과 관련한 질문을 할 때 일정 정도 이상의 고소득을 밝히기 꺼릴 수 있습니다. 그때 소득의 범위를 적절하게 설정하는 등으로 응답자가 대답할 수 있는 질문을 만드는 게 필요합니다.


  1. 부정어를 사용하지 않은 질문

  • 가령 ‘다음 진술에 동의하십니까’라고 물었을 때 ‘정부의 어떤 정책을 좋아한다 라는 선택지가 있다면 간혹 ‘안’을 빼고 읽거나 헷갈리기도 하므로 긍정 형태의 문항으로 작성하는 게 좋습니다.


  1. 편견이 담기지 않은 문항과 용어

  • 질문자의 시각이 문항에 담기는 것은 좋지 않습니다. 가령 ‘동성애를 하면 지옥에 간다는 주장에 동의하십니까’라는 질문은 교회 내에서 할 수 있는 질문이기도 하지만 일반 대중에게는 편견이 담긴 용어라서 부적절한 질문이라고 할 수 있습니다.


  1. 응답자와 관계있는 질문


  2. 짧은 문항




tip 설문조사 결과 이해하기


[그림 4] 차기 대통령 후보 적합도 (출처: 한국사회여론연구소)


[그림 4]는 올해 11월 10일부터 11일까지 이틀간 한국사회여론조사연구소에서 진행한 차기 대통령 후보 적합도에 관한 설문조사 결과입니다. 이를 통해 지금까지 배운 것을 확인하기 위해 묻고 답하는 시간을 가졌습니다.


  • 지역: 전국

  • 모집단: 전국 거주 만 18세 이상 성인남녀

  • 방식: 유선 20%, 무선 80% 전화 면접 조사 

  • 총응답자: 1,009명

  • 표본오차: 95% 신뢰수준±3.1%p

  • 응답률 12.7%


설문조사에서는 유무선을 병행한 조사를 했습니다.

유무선의 비율이 조사 결과에 영향을 미치기도 하는데요. 이 비율은 보통 이전에 진행된 조사의 비율을 반영해서 활용합니다. 유무선 병행조사가 이루어진 지는 10년 정도 되었습니다. 2000년대만 해도 유선 위주로 조사가 진행되었는데, 이럴 경우 주부나 은퇴자 측의 응답 비율이 크게 잡히는 문제가 있었습니다. (지금은 거의 무선이 중심인 세상이 되었고 그래서) 유선 비율을 약간 남겨놓았다고 보면 됩니다. 가령 외진 지역의 70대 노인을 표집에 넣었다면, 이들은 무선 응답보다는 유선으로 하는 게 더 쉬운 접근일 수 있으니까요.


표본오차와 신뢰수준은 뭘까요?

가령 이낙연 21.1%는 21.1%p를 의미합니다. 현실적으로 95% 신뢰수준을 많이 쓰고, 학계에서는 99%, 99.9% 신뢰수준을 쓰기도 합니다. 신뢰수준이라는 것은 추정하는 것이지, ‘그렇다’고 결론 내리는 것이 아닙니다. 그래서 21.1%는 절대적인 값이 아니라 통계적으로 추론되는 값입니다. 신뢰수준 3.1%p는 21.1%p에서 ±하는 값이지요. 즉 이낙연의 지지율은 18%p~24.2%p에 놓여있다는 것입니다.


연구에 적합한 표본 크기를 결정하려면,

허용 가능한 표집 오차 수준을 결정하고 필요한 사례 수를 계산해야 합니다. 연구 발견이 모수 ±5% 사이에 정확히 있음을 95% 확신하고자 한다면 최소한 400명의 표본을 추출해야 합니다. 표본이 모집단의 5% 이상을 대표하지 않는다면, 즉 표본이 크면 클수록 좋겠지만, 5%가 안 된다고 해도 무작위 표집을 잘하면 비율은 상관이 없다고 할 수 있습니다. 가령 1,000명을 조사한 결과를 어떻게 믿냐고 할 수 있는데, 무작위 표집이 잘 된 거면 신뢰할 수 있다고 볼 수 있는 것이지요.


설문조사의 결과를 두고 T-test나 분산분석 등을 할 수 있습니다. 예를 들어 서로넷이 진행한 코로나 19 설문조사에서 고용 형태에 따라 소득이 유의미하게 차이가 있는지 혹은 실직 여부에 차이가 있는지 등을 비교할 수 있습니다.


그럼 다시 [그림 4]로 돌아가 몇 가지 질문을 해봅니다.

먼저 이낙연 후보와 이재명 후보의 적합도 차이는 얼마인가라고 묻는다면, 이낙연 후보가 0.2%p 앞선다고 할 수 있지만, 신뢰구간 사이에 존재하기 때문에 실질적으로는 의미가 없는 차이라고 할 수 있습니다. 그렇다면 윤석열 후보가 유의미하게 3등인가라고 묻는다면,  유의미하다고 할 수 있습니다. 통계적으로 3등의 수치가 통계적으로 2등 및 4등과 신뢰구간 차이를 넘어선 차이가 나기 때문입니다.




#3. 사회조사의 사례


한국노동패널



[그림 5] 한국노동패널조사 홈페이지 메인 화면


한국노동연구원에서 제공하고 있는 노동시장에 대한 대표적인 패널조사데이터입니다. 제주도를 제외한 전국 도시지역 5,000가구와 15세 이상의 가구원을 대상으로 1998년 이후 매년 1회 추적 조사가 진행되는 종단면 조사(longitudinal survey)입니다. 즉 동일한 표본을 장기간 조사함으로써 다른 변수의 영향을 통제하고 정부 정책이나 사회현상에 따른 변화를 효과적으로 측정 가능한 조사입니다. 조사 내용은 가구의 소득, 소비, 저축, 자산, 주거, 자녀교육 등의 가구 특성과 고용 형태, 노동조건, 노동조합, 교육, 훈련 등 개인 특성으로 구분되며, 면접원이 응답자를 직접 만나서 조사가 이루어집니다.


조사대상

1998년 최초 패널 구축 당시에 5,000가구(13,321명)의 조사가 이루어졌으며 2009년 당시 초기 가구에서 자녀가 분가하였거나 사회변동, 조사 대상 변동 등을 반영하기 위해 표본을 추가하여 6,721가구(14,489명) 조사가 진행되었고, 2018년에도 별도의 표본 추가가 이루어져 12,134가구(23,972명) 대상 조사가 이루어졌습니다. 


자료

현재 온라인에 공개된 것은 21차년도까지의 자료이며, 23차까지의 조사가 이루어진 상태입니다. 자료는 excel, spss, stata, sas 등 다양한 분석 패키지 형태로 다운로드받을 수 있습니다. 또한 설문지와 사용자 가이드, 통합코드북을 제공하며, 데이터 활용에서 유의해야 할 점 등을 안내하고 있습니다.



[그림 6] 한국노동패널조사 공개용 자료 다운로드 화면


가구용 설문 주요 내용

  • 가구원 인적 사항

  • 변동 가구원(추가, 분가, 사망) 관련 문항

  • 가족관계와 부모와의 경제적 교류 관련 문항

  • 주거(주거지(시군구), 입주 형태, 주택 종류, 면적, 시가, 임대보증금, 월세 등)

  • 자녀교육 및 자녀 보육(사교육 종류, 사교육비 등)

  • 가구 소득(근로, 금융, 부동산, 이전, 사회보험, 기타)

  • 가구 소비 및 저축

  • 가구 자산(금융, 부동산)과 부채

  • 가구 경제 상태 및 가계 부담 소비 항목


임금 근로자 설문 주요 내용

  • 지난 조사 이후 일자리 관련 변경사항

  • 일자리 형태 및 규모

  • 근로계약, 근로시간, 임금 관련 문항

  • 일자리 통한 사회보험 가입 여부

  • 일자리 노동조합

  • 일자리 그만둘 당시의 상황

  • 일자리의 직업 및 산업

  • 구직활동 관련 문항


비임금 근로자 설문 주요 내용

  • 지난 조사 이후 일자리 관련 변경사항

  • 일자리의 종업원 수와 가족종사자의 수

  • 일자리의 근로시간, 일자리의 매출액과 소득, 영업비용

  • 일자리의 직업 및 산업

  • 구직활동 관련 문항

  • 일자리의 직업 및 산업

  • 현재 하는 사업의 가치 (금액으로 환산)

  • 사업체의 장기적 전망

  • 임금근로자로의 전직 의사


개인용 설문 주요 내용

  • 경제활동상태(취업)

  • 현재 하는 일의 고용상의 특성

  • 부가급여 및 복리후생

  • 근로시간 관련 사항

  • 직무만족도, 현재 하는 일의 교육/기술 수준 적합도

  • 구직활동 및 희망하는 일자리의 특성, 구직 시 어려움

  • 교육 및 직업훈련

  • 사회보험 수급 관련 사항

  • 정규교육 관련 사항

  • 혼인상태, 건강


부가 설문 (차수별 주제): 해당 시기의 주요 사회변동이나 특징 등 테마가 추가되는 형태

  • 3차년도, 9차년도, 19차년도: 청년

  • 4차년도: 건강과 은퇴

  • 6차년도: 중고령자

  • 7차년도: 근로시간과 여가

  • 8차년도: 노동조합과 노사관계

  • 10차년도, 21차년도: 고용 형태

  • 11차년도: 교육

  • 17차년도: 시간 사용과 삶의 질

  • 18차년도: 삶의 인식, 장년층

  • 20차년도: 의사결정

  • 22차년도: 비임금근로자

  • 23차년도: 코로나 19



[그림 7] 1~21차 부가조사 데이터 중 21차 고용형태 부가조사 데이터 일부

(출처: 한국노동패널조사)



[그림 8] 21차년도 부가조사 고용형태 부가조사 자료의 변수 설명

(출처: 한국노동패널조사 21차년도 유저가이드)



#4. 보다 효과적인 결과물을 위한 다른 방법들


통계청 마이크로데이터


통계청에서 지자체, 연구기관 등 통계작성 기관의 마이크로데이터를 제공하는 곳입니다. 마이크로데이터란 통계조사 원자료에서 조사·입력 오류 등을 수정한 개별단위(개인, 가구, 사업체 등) 자료를 말합니다.


마이크로데이터 이야기 (영상)



제공자료

통계청(사업체 부문 13종, 인구 부문 5종, 가구 부문 10종, 농림어업 부문 12종, 행정통계 8종), 통계작성 기관(고용노동부 5종, 과학기술정보통신부 12종, 교육부 3종, 국토교통부 6종, 기상청, 농촌진흥청, 문화체육관광부 16종 그 외 11개 기관 및 지자체 사회조사 80종, 기타 공공기관 실태조사 등 제공)



[그림 9] 통계청 마이크로데이터 제공 자료 중 일부



정보공개청구


정보공개청구를 통해 알고 싶은 정보와 데이터를 요청하는 방법도 있습니다. 공익데이터실험실 가을스프린트에서 이미 교육을 진행했었지요.

👉 국민의 알권리, ‘정보 공개 청구’에 대해 알아보자(feat. 정보공개센터)



#5. 양적자료 분석


코딩 즉 응답을 분석 가능한 형태로 바꾸어서 통계분석을 하는 방법입니다. 한국노동패널조사 소개 때도 말씀드린 코드북에서 설문 응답 등 자료에 대한 설명과 값의 위치 등을 안내하고 있습니다.


많이 쓰는 분석은, 

  • 일원 분석(univariate analysis): 사례들을 하나의 변수를 통해, 특히 변수의 속성 분포를 통해 살펴보는 분석 방법입니다. 주로 분포, 평균, 분산 등이 있습니다.

  • 이원 분석(bivariate analysis): 두 변수 간의 경험적 관계를 확인하기 위해 두 변수를 동시에 분석하는 방법입니다. 예를 들어 성별에 따른 음주 횟수의 차이 등을 분석하는 것이지요.

  • 다원 분석(multivariate analysis): 3개 이상의 변수를 동시에 분석합니다. 예를 들면 아래 [그림 10]과 같은 경우예요.



[그림 10] 다원분석 예시 (출처: Earl R. Babbie. 2007. 사회조사 방법론)



#6. 통계분석


통계 분석에는 크게 세 가지가 있습니다.

  • 기술 통계학(descriptive statistics): 표본 내 한 변수의 특성 또는 여러 변수 간의 관계 특성을 정리하고 요약합니다.

  • 추론 통계학(inferential statistics): 관찰 결과에 따른 추론 즉 표본 자료에서 얻은 결과를 기초로 모집단을 추론하는 데 사용됩니다.

  • 회귀분석(regression analysis): 두 변수 간 함수관계를 규명하는 대표적인 분석 방법입니다. 두 변수 간 선형 연관성을 분석하는 선형 회귀분석과 주어진 종속변수가 여러 가지 독립변수로부터 동시 영향을 받는 경우를 분석하는 다중 회귀분석이 있습니다.



    [그림 11] 선형회귀분석의 예 (출처: Earl R. Babbie. 2007. 사회조사 방법론)


통계분석 기법은 데이터 특성에 따라서 선택하면 됩니다.




질의응답 및 참가자 소감


❓ 목표 표본이 너무 소수이거나 응답을 할 수 없는 즉 채널에 닿을 수 없거나, 설문하고 싶은 대상을 쉽게 찾을 수 없거나 너무 소수이거나 어려울 때, (우리가 조사하고 싶은 대상의) 특성을 가진 사람일 거라는 가정을 해보라고 한 뒤에 설문하는 경우도 있을까요? 예를 들어 ‘만약 내가 그 사람일 경우 어떤 선택을 하겠는가’라는 형태로요.


👉 그런 경우 반-사실적인 사례라고 합니다. 설문보다는 질적 연구를 통해서 진행하거나, 그 문항에 대한 정보는 없지만 다른 문항 정보가 많다면, 예를 들어 소득은 모르지만, 집이나 소비 정도, 세금 규모를 알아서 추론 가능할 때는 통계적 기법으로 추론하기도 합니다. 하지만 쉽지는 않습니다. 센서스할 때 가장 밝히기 힘든 게 소득인데, 월 1,000만 원까지는 쉽게 대답하지만, 그 이상일 때 그냥 1,000만 원에 체크하는 경우가 많아요. 너무 소득이 낮을 때도 좀 더 높게 체크할 수도 있고요. 따라서  인터뷰나 관찰을 하는 게 좀 더 의미가 있습니다.


❓ 여론조사 기관은 기본 데이터가 있는 걸 사용하는데, 우리가 하려면 어떻게 표집 설계를 하는가?


👉 서로넷에서 설문조사를 할 때 단체 네트워크를 활용해서 한 것으로 알고 있어요. 만약 제가 한다면 손이 닿을 수 있는 범위가 어디까지인지 조사를 먼저 할 것 같아요. 서울지역 모든 노동자를 포괄하는 단체에 손이 닿는다면, 그다음에는 단위별로 노동자 비율을 맞추는 거죠. 첫 번째 노동단체에 서울시 노동자의 50%가 소속되어있으면 1,000명의 표본 중 이 단체를 대상으로 500명을 조사하고 또 다른 단체도 그런 비율로 조사를 하는 방식입니다. 이렇게 층을 나눠서 하면 확률 요소를 반영해서 표집 설계가 가능할 거예요. 하지만 현실적으로 힘들기는 합니다. 그래서 다른 곳에서 생산한 것으로 분석하는 것이지요. 서로넷의 조사를 대외적으로도 알리려면 확률표집을 하고 표본 수를 좀 늘리면 좋지 않을까 생각해요.


❓ 노동조합이 통계청에 통계를 정치적으로 이용하지 말라는 주장을 하기도 해요. 그래서 정부 기관의 데이터 객관성에 의구심이 들기도 합니다.

👉 데이터 마사지 같은 부분에 고민이 있을 수 있습니다, 설문을 어떻게 설계하느냐에 따라서 응답이 달리지기도 하니까요.


❓ 설문 설계할 때 궁금한 게 많았어요. 서울지역 노동실태 자체가 무척 광범위한데, 알고 싶은 게 너무 많아서 실태조사 할 때 쓰는 모든 항목을 (저희가 조사할 때) 다 넣은 것 같아요. 생각했던 것보다 유의미한 결과가 안 보였어요. 강의를 들으면서 문제점도 알게 되었고, (우리 스스로 설문조사를 해보자는) 시도를 했기 때문에 궁금한 점도 생겼던 거기도 하고, 그래서 앞으로 각 시점마다 동일한 범주의 사람을 조사해보는 과정을 거치면 좋을 것 같습니다.

👉 데이터 마사지도 있지만, 큰 기관에서 생성하는 데이터를 쓰는 게 좋다고 생각해요. 다만 우리와 핀트가 안 맞는다고 할 때, 한국노동패널조사는 어떤 부가조사를 하면 좋을지 신청을 받기도 하니까 거기 제안을 해보셔도 되고요. 서울시도 있고 민노총도 있으니, 단위가 크고 대표성이 높을수록 데이터 대표성이 높아지거든요. 그런 쪽의 활동을 참고해서 수정하는 방향으로 하는 것도 좋을 것 같습니다. 조사도 잘했고, 해석도 잘했지만 샘플 사이즈와 샘플링이 아쉬웠어요. 설문조사를 하려면 최소 1,000명은 해야 해요. 할당하는 형태로라도 해서 사이즈를 키우는 게 좋을 것 같아요. 아니면 특정 직군에 대한 조사라면 모집단까지는 어렵겠지만 해당 직군으로 집중해서 하는 것도 좋지 않을까요.


처음에는 재밌게 시작을 했어요. 설계하는 동안 대전, 광주 등 다른 지역에서 코로나 19 노동실태 조사 결과가 올라와서, 거기도 설문 내용이 계속 바뀌니까 그걸 보면서 항목을 뽑았어요. 그런데도 분석이 어려웠어요. 그리고 재정적 한계 때문에 어디 맡길 수도 없고, 응답자를 많이 확보하기도 어려웠어요. 다만 우리는 연구자 없이 활동가들끼리 해보고 싶은 마음이 있었어요. 기술적이고 전문적인 부분을 이해하기는 어려웠지만, 올해 당장은 어렵겠지만, 우리도 아쉬운 점이 있고, 다시 한번. 우리 설문조사에서 재난지원금도 왜 다양하게 항목 제시를 했냐면 하나를 받아도 받았다고 할 수 있고, 몇 달 받는 사람도 있고 종류가 다양하다 보니 그걸 다 담고 싶었던 마음이었어요.

👉 설문 설계는 정답이 있는 게 아니라 타협을 해야 하는 부분이 있다는 걸 생각하고 하시면 좋을 것 같아요. 


❓ 데이터를 어디서 찾고 어떻게 활용하는지가 우리에게 실질적으로 도움이 될 것 같아요. 

👉 마이크로 데이터가 무척 다양하니까 한번 살펴보시면 좋겠어요.




“표본오차, 신뢰수준 구간 등을 이해하는데 도움이 되었어요. 우리가 시행한 설문조사 결과를 바탕으로 강의를 해주셔서 이해하기도 쉽고, 앞으로 활용할 때 큰 도움이 될 것 같아요.”


“전체 저런 통계데이터에서 우리가 참고할만한… 처음에 사람 만나서 어떻게 질문할건지 고민한게 아니라, 이 데이터를 보고 이 직군을 만나보자 해서 심층인터뷰를 진행했어요. 이후에도 이런게 필요하다고 하면, 설계를 다시 해서 내년쯤… (우리는) 코로나 19가 양극화를 가속화시킬 것 같다는 가설(을 세웠어요). 그래서 조사를 더 해보고 싶은 마음은 있습니다.”


“기존 데이터 활용도 공부하면 좋을 것 같고, 전문가가 아닌데 하다보니 기존 자료와 차별성을 고민했고 심층면담을 했어요. 그때는 또 질적조사에 대한 방법론이 요구되기도 (하더라고요). 답변이 설문의 좀 긴 버전이랄까. 면담을 통해서 얻을 수 있는 게 무얼까가 궁금하기도 했어요.”


“경제활동인구조사부가조사 나오면 비정규 규모에 대해서 재분석을 해요. 비정규노동센터가 먼저 내냐, 한국노동사회연구소가 먼저 내냐 하는데, (우리와 정부의) 기준이 달라서 수치가 되게 달라요. (그래도) 통계청에서 내주니까 우리가 재분석 할 기회도 있는 거(같습니다).”



[아카이브] 공익데이터실험실