서론
데이터를 기술 통계를 통해 분석했다면 다음은 무엇을 해야할까요? 모집단을 추론하는 것이 뒤따라야 합니다. 왜냐하면 *모수와 *통계량 사이에는 불가피한 편향이 존재하기 때문입니다. 표본의 통계치만 맹신할 수 없으므로 우리가 분석한 표본이 얼마나 모수에 가까운지 추정할 필요가 있겠죠? 이것을 추론 통계라고 합니다. 그리고 이를 도와줄 강력한 도구가 바로 확률인 샘이죠.
*모수 : 모집단의 특징을 수치로 나타낸 값. (모집단의 평균, 분산 등)
* 통계량 : 표본의 특징을 수치로 나타낸 값. (표본의 평균, 분산 등)
1. 데이터 과학 공부하기 - 통계학 기초(표본 추출)
2. 데이터 과학 공부하기 - 통계학 기초(변수와 척도)
3. 데이터 과학 공부하기 - 통계학 기초(기술 통계)
확률
간단히 용어들을 정의하고 시작하겠습니다.
- 확률 : 일정한 조건 안에서 특정 사건이 일어날 수 있는 가능성의 정도.
- 표본공간(sample space) : 통계적 실험을 통해 발생할 수 있는 모든 사건의 집합.
- 사건(event) 혹은 표본 점(sample point) : 한 번의 실험을 통해 발생할 수 있는 특정한 결과 혹은 표본공간의 부분 집합.
확률은 0~1사이 실수로 표현하며 n 번의 시행 중 사건 A가 x번 일어났다면, 사건 A가 일어날 확률을 "P(A) = x/n"으로 정의할 수 있습니다. 보통 고등학교에서 확률에 대해서 배웠을탠데요. 저는 어느 정도 숙지를 하고 있는 상태이기 때문에 설명에 비약이 있을 수 있습니다.
확률의 종류 세 가지를 소개하겠습니다. 비조건확률(unconditional probability), 결합 확률(joint probability), 조건부 확률(conditional probability)이 있습니다. 비조건확률은 아무런 조건이 없는 상황에서 사건이 일어날 확률입니다. 결합 확률은 두 개의 사건이 동시에 일어나는 확률입니다. 조건부 확률은 하나의 사건이 먼저 발생했다는 조건이 전제된 상황에서 또 다른 사건이 발생할 확률입니다.
분할 : 사건들을 모두 합했을 때 전체 사건들을 포괄하되, 중복이 일어나지 않는 사건들의 집합.
베이지안 이론 : P(A)와 P(B|A)를 안다면 P(A|B)를 계산할 수 있다는 이론
확률분포
확률변수는 확률이 주어진 변수를 의미합니다. 데이터에서 어떤 값이 나올 확률을 말할 수 있으면 확률변수라고 합니다. 이 통계량도 표본을 추출할 때마다 바뀔 수 있으므로 확률변수입니다. 더 쉬운 예를 들어볼까요? 주사위 하나를 굴렸을 때 1이 나올 확률을 말할 수 있나요? 1/6이라고 말할 수 있으므로 주사위 눈금은 확률변수가 될 수 있습니다. 주사위 눈금처럼 셀 수 있는 이산적인(실수형) 값을 가지면 이산확률변수라고 합니다. 성인 남성 100명의 표본에서 사람을 한 명 뽑았을 때 키가 170일 확률을 말할 수 있으니 키도 확률변수가 될 수 있습니다. 키처럼 연속형 값을 가져서 셀 수 없으면 연속확률변수라고 합니다.
이산확률변수의 분포는 이산확률분포로 나타낼 수 있습니다.
연속확률변수는 연속확률분포로 나타낼 수 있습니다.
종류 | 이산형 확률분포 | 연속형 확률분포 |
표현 함수 | 확률질량함수(PMF) | 확률밀도함수(PDF) |
개념 | 전체 경우 중 특정 값의 사건이 발생할 수 있는 확률의 크기를 나타냄 | 전체 경우 중 특정 구간 안에서 사건이 발생할 확률의 크기를 나타냄 |
특징 | 특정 값을 가질 확률 계산 가능 | 특정 값을 가질 확률 계산 불가 (범위는 계산 가능) |
주요 분포 | 이항 분포, 초기하 분포, 포아송 분포 | 정규 분포, 카이제곱 분포, F 분포, 지수 분포 |
그래프에 그릴 수 있는 관계는 함수로 나타낼 수 있습니다. 따라서 이산/연속확률분포도 함수로 나타낼 수 있는데요. 이산확률분포는 확률질량함수(PMF)로, 연속확률분포는 확률밀도함수(PDF)로 나타낼 수 있습니다. 확률질량함수는 이산확률변수에 대한 함수이므로 확률변수를 대입하면 특정한 값이 나올 확률을 알 수 있습니다. 그러나 확률밀도함수는 연속확률변수에 대한 함수이므로 특정한 값을 가질 수 없습니다. 대신 구간 사이의 넓이를 통해 확률을 알 수 있습니다. 고등학생 때 배운 '정규분포를 구간 적분하여 확률을 알아내는 개념'을 떠올리시면 됩니다.
이산확률분포
● 균등 분포 : 모든 확률변수가 동일한 확률을 가지는 분포
ex) 주사위 한 개를 굴렸을 때 주사위 눈금이 가지는 확률분포
● 이항분포 : 표본공간에 확률변수가 두 개뿐이고 시행마다 독립사건이 일어나는 분포 (복원 추출)
ex) 동전을 n번 던졌을 때 앞면이 나온 횟수 k가 가지는 확률분포
- 베르누이 시행(시행의 결과가 성공(1) 또는 실패(0)이고 각 시행이 상호 독립적)을 원칙으로 한다.
- 성공 확률(p)은 매 시행마다 동일하다.
- 총 시행 횟수(n)는 사전에 정해져 있다.
n : 전체 시행 횟수
X : 이항확률변수(성공 횟수)
k : 성공 횟수
p : 성공 확률
● 초기하분포 : 시행의 결과가 성공 또는 실패이고 시행마다 종속사건이 일어나는 분포 (비복원 추출)
ex) 사람이 N명인 학급에서 사람을 한 명씩 뽑아서 n명 뽑을 때, 남자의 수가 가지는 확률분포
- 모집단은 유한하다.
- 모든 사건이 종속적(비복원 추출)이다.
N: 모집단의 크기
n: 추출하는 데이터의 개수
k: 성공 횟수
● 포아송분포 : 일정한 시공간에서 발생하는 사건의 횟수를 확률변수로 가지는 분포
ex) 어느 공장에서 1시간동안 3개의 불량품이 발생한다고 했을 때 ?시간동안 발생하는 불량품의 수가 가지는 확률 분포
- 발생하는 사건은 양의 정수 형태를 가진다.
- 모든 사건은 독립적이다.
- 해당 시공간에서 사건의 발생 비율은 항상 같다. (1시간에 3개, 2시간에 6개, 3시간에 9개 ...)
- 한 번에 둘 이상의 사건이 발생하지 않는다.
x : 특정 시공간 안에서 발생할 사건의 수
e : 자연로그의 밑수
람다 : 특정 시공간 안에서의 평균 사건 발생 횟수
연속확률분포
이산확률변수는 세는 것이 가능합니다. 주사위의 눈금, 남자의 인원수, 불량품 개수 등 모두 셀 수 있는 이산확률변수죠. 그러나 키는 셀 수 없습니다. 저는 의문이 들었습니다. 키는 셀 수 있지 않느냐고 말이죠. 이에 대한 대답은 의외로 간단합니다. "주사위의 눈금이 1개다.", "남자가 3명이다.", "불량품이 5개다."는 모두 몇 개인지 말하고 있습니다. 그러나 "172cm가 2개다."라고 말할 수 있을까요? "키가 172cm인 사람이 2명이다."라고는 말할 수 있지만 문장의 주어(확률변수)는 키입니다. 키는 수치 그 자체인 것이지 개수로 셀 수 있는 것이 아닙니다. 게다가 자세히 따지고 들어가면 키는 셀 수 없는 연속형 값의 영역입니다. 172cm라고 생각했던 철수의 키는 사실 172.345634...cm입니다. 편의를 위해 소수점 단위를 생략하고 살고 있을 뿐, 우리의 키는 연속적입니다.
그러나 키도 확률을 가지고 있습니다. 그래서 확률 변수라고 말할 수 있는 것이죠. 대한민국 성인 남성 10명을 대상으로 키를 조사해 봅시다. 대한민국 전체 남성 인구에 비하면 턱없이 작은 숫자죠. 모수를 추정하긴 어려워 보입니다. 10cm 단위로 범위에 해당되는 남성의 수를 히스토그램으로 그리면 확률이 어떻게 분포되어 있는지 눈으로 확인할 수 있을 겁니다. 100명을 조사해서 1cm단위로 히스토그램을 그리면 더 자세히 확인할 수 있겠네요. 1만명, 10만명, 100만명으로 점점 늘려가면 히스토그램은 곡선 형태를 띄게 됩니다. 이러한 분포를 연속확률분포 혹은 확률밀도곡선이라고 합니다.
● 정규분포(normal distribution)
- 평균, 중앙값, 최빈값이 같다.
- 평균을 중심으로 좌우 대칭의 종 모양이다.
- 평균을 기준으로 좌우로 1 표준편차 안에 68.26%의 확률변숫값이 포함된다.
- 그래프의 면적을 계산해 확률을 구한다.
- 다른 분포끼리 비교하기 위해 '표준정규분포'를 활용할 수 있다.
● 지수분포(exponential distribution)
- 특정 사건이 발생한 시점으로부터 다음 사건이 발생할 때까지의 시간을 확률변숫값으로 한다.
※ 지수 분포는 넘어가도록 하겠습니다.
중심극한정리
데이터의 크기(n)가 일정한 양을 넘으면, 표본평균의 분포는 정규분포에 근사한다는 이론입니다. 이해하기 매우 까다롭지만 추론 통계의 근간을 이루는 중요한 이론입니다. 서론에서 설명했듯이 우리가 추출한 표본의 통계량이 모수를 대변할 수 있는지, 모수를 얼마 정도로 추정할 수 있는지 추정하는 것이 추론 통계입니다. 그것을 뒷받침하기 위해서 확률이라는 도구를 배우고 있는 것인데요. 바로 중심극한정리가 통계량으로 모수를 추정하도록 하는 수학적 근거를 마련해 주는 이론입니다. 저는 통계학과 학생이 아니기 때문에 자세한 증명은 뒤로하고 얘가 도대체 무슨 말을 하는 건지 설명만 하고 마무리하겠습니다.
모집단으로부터 표본(X)을 1개만 추출해봅시다. 표본 데이터의 평균을 구하면 그것을 표본평균(X바)이라고 합니다. 이번엔 표본을 10개 추출해봅시다. 그러면 10개의 표본평균을 얻을 수 있습니다. 표본평균은 확률변수입니다. 왜냐하면 평균으로 특정한 값을 가질 확률이 존재하기 때문입니다. 따라서 확률분포로 표현할 수 있습니다. 표본평균값은 연속적이고 셀 수 없기 때문에 연속확률분포로 표현이 됩니다. 표본을 계속해서 추출한다면 점점 곡선의 형태로 바뀔 겁니다. 여기서 중심극한정리의 핵심은, "추출하는 표본들의 표본 크기(n)가 충분히 크다면 모집단의 분포와 상관없이 표본평균의 분포가 정규분포에 근사해진다."는 것입니다. 여기서 충분히 큰 표본 크기는 통상적으로 30개로 통용되는 것 같습니다.
부족한 부분이 있다면 댓글로 피드백 주시면 감사하겠습니다. 읽어주셔서 감사합니다!
'컴퓨터공학 > 데이터과학' 카테고리의 다른 글
데이터 과학 공부하기 - 통계학 기초(기술 통계) (4) | 2024.11.23 |
---|---|
데이터 과학 공부하기 - 통계학 기초(변수와 척도) (2) | 2024.11.20 |
데이터 과학 공부하기 - 통계학 기초(표본 추출) (4) | 2024.11.20 |