컴퓨터공학/데이터과학 4

데이터 과학 공부하기 - 통계학 기초(확률 분포, 중심극한정리)

서론  데이터를 기술 통계를 통해 분석했다면 다음은 무엇을 해야할까요? 모집단을 추론하는 것이 뒤따라야 합니다. 왜냐하면 *모수와 *통계량 사이에는 불가피한 편향이 존재하기 때문입니다. 표본의 통계치만 맹신할 수 없으므로 우리가 분석한 표본이 얼마나 모수에 가까운지 추정할 필요가 있겠죠? 이것을 추론 통계라고 합니다. 그리고 이를 도와줄 강력한 도구가 바로 확률인 샘이죠.  *모수 : 모집단의 특징을 수치로 나타낸 값. (모집단의 평균, 분산 등)* 통계량 : 표본의 특징을 수치로 나타낸 값. (표본의 평균, 분산 등) 1. 데이터 과학 공부하기 - 통계학 기초(표본 추출)2. 데이터 과학 공부하기 - 통계학 기초(변수와 척도)3. 데이터 과학 공부하기 - 통계학 기초(기술 통계) 확률  간단히 용어들을..

데이터 과학 공부하기 - 통계학 기초(기술 통계)

서론 지금까지 데이터 과학의 일반적인 프로세스 중에서 데이터 수집, 데이터 가공에 필요한 통계학적 지식들을 공부했습니다. 데이터 수집 단계에서 배운 것은 "실제 환경에서는 전수조사를 하기 힘들기 때문에 표본조사를 하고, 표본을 추출하는 과정에서 편향이 생길 수 있으므로 주의하자."였습니다. 데이터 가공 단계에서 배운 것은 "변수에는 종류가 있고 관계가 있다. 그리고 척도를 통해 수치화 시킬 수 있다."였습니다.  이렇게 수집하고 가공한 데이터를 이제 분석할 차례인데요. 첫 번째 시간에 통계학의 큰 분류로 기술 통계와 추론 통계를 소개해드렸습니다. 기술 통계는 데이터를 잘 설명할 수 있는 지표를 뽑아내는 것이라고 했습니다. 이것을 탐색적 데이터 분석(EDA : Exploratory Data Analysis..

데이터 과학 공부하기 - 통계학 기초(변수와 척도)

서론 이전 시간에는 데이터 과학의 프로세스 중에서 데이터 수집에 해당하는 표본추출의 종류가 무엇이 있는지 알아보았습니다. 대부분의 분석이 전수조사를 할 수 없기 때문에 우리는 모집단에서 표본을 추출하여 표본의 통계량을 확인한 뒤, 모집단의 모수를 추정하는 방식을 사용한다고 했는데요. 오늘은 데이터 가공에 앞서 변수와 척도의 개념에 대해서 공부해 보도록 하겠습니다. 1 : 데이터 과학 공부하기 - 통계학 기초(표본 추출)  변수의 종류  데이터 과학은 변수와 변수의 관계를 밝혀내는 활동입니다. 그렇다면 변수란 무엇일까요? 변수는 말 그대로 값이 변하는 수라고 생각하면 됩니다. 상수와는 반대되는 개념으로 값이 변할 수 있는 성질을 가지고 있는 건데요. 변수도 여러 가지 종류가 존재합니다.  가감 승계(+, ..

데이터 과학 공부하기 - 통계학 기초(표본 추출)

인사말 안녕하세요! 첫 게시물로 데이터 과학에 대해서 공부한 것을 정리하려고 하는데요. 책 [데이터 분석가가 반드시 알아야 할 모든 것]으로 공부를 했기 때문에 많이 영향도 받고 참고도 했습니다.  데이터 과학을 배우는데 왜 통계학을 알아야 할까요? 데이터 과학은 기초 통계로부터 발전해 왔고 의미를 해석할 때 통계 이론에 기반합니다. 따라서 통계학의 기초에 대해서 알아야 데이터 과학의 결과를 보고 우리가 얻어내고자 하는 결론에 도달했는지, 잘못된 부분이 없는지, 있다면 어떻게 개선해야 하는지 알 수 있겠죠? 데이터에 대해서 다루는 데이터 과학을 제대로 이해하기 위해서 통계학에 대해서 공부해 보겠습니다.  서론일반적으로 데이터 과학의 전체적인 프로세스는 다음과 같이 진행된다고 합니다.통계학은 데이터 분석과..