2010년 10월 29일 금요일

자료의 유형

자료를 정리하거나 통계분석을 수행하기 위해서는 자료의 유형에 대해서 알아야 한다. 자료의 유형에 따라 분석방법이 달라지기 때문이다.
자료는 크게 양적 자료와 질적 자료로 나누어진다. 양적 자료는 키, 몸무게, 시험점수 등 수치로 나타낼 수 있는 자료이고, 질적 자료는 직업, 거주지 등 수치로 나타낼 수 없는 자료이다. 양적 자료는 다시 이산형 자료와 연속형 자료로 나누어진다. 이산형 자료는 자녀 수, 컴퓨터 수와 같이 셀 수 있는 수치만을 갖는 자료이고, 연속형 자료는 키, 무게, 온도 등 연속적인 값을 취할 수 있는 자료이다.


한편, 자료는 측정척도의 유형에 따라 비율척도, 등간척도, 서열척도, 명목척도로 나누어진다. 비율척도와 등간척도는 양적 자료 측정에 사용되고, 서열척도와 명목척도는 질적 자료 측정에 사용된다. 비율척도는 각 수준간의 간격이 동일하면서도 동시에 절대원점을 갖는 척도이다. 키, 몸무게와 같이 수치 들을 더하고 뺄 수 있을 뿐 아니라 곱하기도 가능하다. 반면에 등간척도는 각 수준간의 간격이 동일하지만 절대원점을 갖고 있지 않은 척도이다. 즉 자료간의 양적 차이는 알 수 있지만 양의 절대적 크기는 알 수 가 없다. 서열척도는 측정 대상간에 높고 낮음의 관계를 순서에 따라 값을 부여한 것이다. 예를 들면 각 행정기관에 대한 만족도를 그 만족순서에 따라 나열하여 번호를 메기면 서열척도가 된다. 명목척도는 남녀구별, 결혼여부, 출신지역 등과 같이 상호 다르다는 것을 표시하는 척도이다. 물론 남자=0, 여자=1과 같이 숫자로 표시할 수는 있으나, 이는 단지 하나의 표시로 숫자를 부여한 것으로, 측정대상간의 크기를 나타내거나 더하기 빼기를 할 수 없다.


사회과학에서 구하기 쉬운 자료는 명목척도나 서열척도 자료이긴 하지만, 그 분석방법에는 한계가 있다. 반면에 등간척도나 비율척도는 다양한 통계분석방법을 적용할 수 있으나 그 자료를 구하는 것이 쉽지는 않다. 예를 들면 시민들을 대상으로 설문조사를 할 경우 월 소득액을 정확히 쓰라고 하면 꺼려하지만, 월 소득액을 대략의 범주로 나누어서 어디에 해당되는지를 체크하도록 하면 응답율이 높아진다.
보통은 명목척도나 서열척도로부터 얻어진 자료로는 적용할 수 있는 분석방법이 제한되어 있기 때문에 가능하면 등간척도나 비율척도로 자료를 얻고자 노력할 필요가 있다. 척도에 따른 통계분석기법은 크게 모수통계와 비모수통계로 나누어 볼 수 있다. 모수통계는 등간척도나 비율척도로 측정된 경우에 적용할 수 있는 기법이고, 비모수통계 기법은 변수가 명목척도나 서열척도로 측정된 경우에 적용할 수 있는 기법이다.


척도

비교방법

평균의 측정

적용가능분석방법


명목척도

확인, 분류

최빈치

빈도분석, 비모수통계,

교차분석

성별 분류, 상품유형별 분류, 시장세분구역분류

서열척도

순위비교

중앙값

서열상관관계,

비모수통계

상표선호순위, 상품품질순위도, 사회계층, 시장지위

등간척도

간격비교

산술평균

모수통계

태도, 의견, 온도, 광고인지도, 상표선호도, 주가지수

비율척도

절대적 크기 비교

기하평균,

조화평균

모수통계

매출액, 구매확률, 무게, 소득, 나이, 시장점유율

참고 1. 하나의 변수에 대한 분석 - 기술적 통계량

척도의 종류

명목, 서열척도(질적분석)

구간, 비율척도(양적분석)

통계량

비율, 최빈치,

사분위, 범위, 첨도, 왜도 등

평균, 표준편차,

최빈치, 첨도, 왜도 등

참고2. 두 변수들간의 분석

독립변수

종속변수

적용 가능한 통계기법

명목

명목

카이자승, 빈도분석

명목

구간

T-test, 분산분석(ANOVA, F 검정), 회귀분석(더미 변수이용)

구간

명목

Logit 모형, Probit 모형

구간

구간

상관분석, 회귀분석, 편상관계수

명목

명목

로그선형모형

명목

구간

MANOVA

구간

명목

로지스틱 분석, 판별분석

구간

구간

다변량 회귀분석

독립변수, 종속변수 구분이 없는 경우

주성분분석, 요인분석, 군집분석

댓글 없음:

댓글 쓰기

2.1 벡터(Vector)

  R의 자료구조 : 벡터, factor, 행렬, 배열, 데이터프레임, 리스트 벡터(Vector)는 동일한 형태(예, 숫자)의 데이터 구성인자가 1개 이상이면서 1차원으로 구성되어 있는 데이터 구조입니다. w <- c(1, 2, 3, 4, ...