Tekhartha의 인공지능 기술블로그

기초적 데이터 분석(Basic Data Analysis)

|


우리는 일을 하면서, 공부를 하면서, 연구를 하면서 수많은 데이터들과 맞부딪히게 된다. 이 때, 이 데이터의 특성이 무엇인지 미리 정보를 알고 있는 경우도 있지만 많은 경우에는 데이터가 어떻게 생겼는지 알아내기가 쉽지 않다. 어떻게 생겼는지도 모르는데, 그로부터 의미 있는 결과를 도출해 내기는 더더욱 어려울 것이다.

이번 포스팅에서는 미지의 데이터를 마주쳤을 때 어디서부터 분석을 시작해 나가야 하는지를 다룬다.


[자료의 종류]

자료(Data)는 크게 두 가지 종류로 나누어 볼 수 있다. 질적 자료(Qualitiative Data)는 범주형 자료(Categorical Data)라고도 하며 수치화하거나 서열을 매길 수 없는 자료로, 전화번호, 혈액형, 주소 등등을 들 수 있다. 양적 자료(Quantitive Data)는 수치적 자료(Numerical Data)라고도 하는데, 수치화하여 나타낼 수 있는 자료로 성적, 키, 몸무게, 나이 등등을 들 수 있다.세상에 존재하는 모든 데이터는 이렇게 ‘수치화할 수 있는가?’의 기준으로 두 가지로 나누어 볼 수 있다.

특정 데이터 셋을 받았는데 그 데이터 셋이 질적 자료로만 이루어져 있을 때는 빈도표, 백분율, 막대그래프, 원그래프 등을 사용하여 어떤 자료가 해당 자료에서 얼마만큼의 비중을 차지하는 지 알아볼 수 있다.

양적 자료로만 이루어진 자료는 해당 자료를 구간화하는 새로운 변수를 만들어서 그 새로운 변수에 해당하는 데이터들을 대상으로 빈도 및 백분율을 구한다. 가장 익숙한 것이 중학교 과정에서 배우는 도수분포표와 히스토그램이다. 또한 상자 그림(Boxplot) 등으로도 자료를 표현할 수 있다.

[기술통계량(Descriptive Statistics)]

기술통계량은 요약통계량(Summary Statistics)이라고도 하며 자료로부터 추출해 내서 자료의 특성을 파악해 볼 수 있는 통계량들을 말한다.

a b c d e
2 4 6 8 10

위와 같이 n=5인 데이터가 있다고 가정해 보자.

[1. 대푯값]

해당 자료를 대표할 수 있는 값들을 대푯값이라고 칭하는데,

  • 평균(기댓값, Mean) : $ (a+b+c+d+e) / n = 6 $ …가장 일반적으로 쓰는 대표값

  • 절사평균(Trimmed Mean) : 전체 자료 중에서 상위 m%만 제외한 자료를 가지고 평균을 내는 방법이다. 보통 이상치 데이터가 섞여 있을 때 많이 활용한다. 위 자료에서 20% 절사평균을 낼 때, 5개 * 20% = 1개의 자료를 제외한다.

  • 중위수(Median) : 전체 데이터를 오름/내림차순으로 정렬하였을 때 한가운데에 있는 자료를 말한다. 위 자료에서는 c가 되겠고, 전체 데이터 개수가 짝수일 때는 가운데 2개의 자료가 중위수가 된다.
  • 최빈수(Mode) : 전체 데이터에서 가장 많은 비율을 차지하는 데이터를 말한다.

[2. 퍼짐(산포)]

데이터들이 얼마나 서로 멀리 떨어져 있는지를 나타내는 통계량들이다.

  • 범위(Range) : 해당 자료에서 최대값과 최소값의 차이값을 의미한다. 위 자료에서는 10-2 = 8.
  • 사분위범위(IQR : Inner Quartile Range) : 제1사분위수(Q1) ~ 제3사분위수(Q3)까지 있는데, Q1은 데이터의 25%가 해당 값보다 작거나 같을 때의 값을 나타내고, Q2는 50%, Q3는 75%를 의미한다.
  • 분산(Variance) : 매우 유명한 통계량. 데이터가 기댓값으로부터 얼마나 멀리 떨어져 있는지를 나타내는 수. 많이들 아는 식인 $V(X) = E((X-\mu )^{2}) = E(X^{2})-{E(X)}^{2}$ 로 계산한다. 위 자료의 경우 V(X) = 8이 된다.
  • 표준편차(Standard Deviation) : 역시 분산과 함께 많이 쓰이는 통계량. 분산의 제곱근을 씌우면 표준편차가 된다.
  • 중위수절대편차(MAD : Median Absolute Deviation) : 이상치에 영향을 좀 덜 받기 위해서 만들어진 통계량인데, 중위수로부터 각 데이터가 얼마나 떨어져 있는지를 표현한 값이다. 표본 데이터에서 중위수를 구하고, 각 데이터에서 중위수를 빼고, 그 결과를 절대값으로 바꾸고, 그 결과에서 중위수를 구한다. 위 자료는 평균과 마찬가지로 6이 나온다.

[3. 분포의 모양]

  • 왜도(비대칭도, Skewness) : 데이터의 분포가 얼마나 한쪽으로 치우쳐 있는지를 나타낸다. 왜도가 양수이면 자료가 왼쪽에 더 많고 오른쪽의 꼬리가 길며, 음수이면 자료가 오른쪽에 더 많고 왼쪽의 꼬리가 길다. 계산하는 방법은 모멘트와 적률을 알아야 해서 좀 어렵다. 궁금하면 wiki를 참조하자.
  • 첨도(Kurtosis) : 데이터의 분포가 얼마나 뾰족한지를 나타내는 지표이다. 첨도가 3에 가까울수록 정규분포의 모양과 비슷해지며, 3보다 작으면 정규분포보다 더 납작하고 완만한 분포, 3보다 크면 정규분포보다 더 뾰족한 분포로 생각할 수 있다. 역시 구하는 공식은 wiki를 참고하자.

[4. 기타]

  • 최댓값(Maximum) : 설명이 필요한가? 해당 자료들 중 가장 큰 값.
  • 최솟값(Minimum) : 역시 설명이 필요한가? 해당 자료들 중 가장 작은 값.


자료를 파악하는 데에 위와 같은 통계량들이 주로 많이 쓰인다. 유의할 점은 한두 개의 지표만 보고서 ‘아 이 자료는 이렇구나’ 하고 속단해 버리면 안 된다는 거다. 세상에 존재하는 데이터는 백이면 백 다 다르기 때문에 위에 열거한 통계량들뿐 아니라 해당 자료가 생성된 방법, 결측치의 존재 유무 등 파악해야 되는 것들이 훨씬 많다. 정성적+정량적 방법을 통해서 데이터를 복합적, 입체적으로 이해해야 올바른 분석이 가능하다. 위의 통계량들은 깜깜한 어둠 속에서 벽이 어디에 있는지를 보여주는 작은 등불 정도로 생각하고 사용하자.

Comments