2.2 가설 검정
가설 검정 (정확한 표현으로는 통계적 가설 검정)은, 표본의 정보를 이용해서 모집단의 실제의 값을 추정하는 통계적 추측 방법이다. 쉽게 얘기하면, 어떤 모집단에 대한 특성이 이러이러하다고 얘기하고 싶은데, 모집단은 덩치가 너무 커서 전부 조사할 수 없으니, 일부 표본을 샘플링해서 조사한 후, 그 표본이 이러이러한 특성을 가지니, 모집단도 이러할 것이다라는 것을 추론하는 것이다. 그런데, 가설검정의 방법은 좀 규격화되어 있다. 어떻게 규격화되어 있냐 하면, 1) 기각하고 싶은(=부정하고 싶은) 것을 귀무가설(null hypothesis)로 두고, 그 반대되는 것(=찬성하고 싶은 것)을 대립 가설로 둔다. 2) 표본에 대해 실험한다. 3) 귀무가설이 맞다고 했을 때, 실험처럼 나올 확률을 구한다. 4) 위 ..
2.1 분포 (예제 풀이)
예제에 사용되는 데이터 파일: 예제 풀이인 ipynb 파일: 예제 2.1 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 분포 곡선을 그렸을 때, 평균 주변에서의 곡선 모양이 가장 뾰족한(평균 주변에 가장 데이터가 많은) 칼럼 이름을 적으시오. df = pd.read_csv('heart.csv') df df1 = df[[ 'age', 'trestbps', 'chol', 'thalach', 'oldpeak']] df1.kurtosis() 예제 2.2 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 정규화를..
2.1 분포 (이론)
설명에 사용된 ipynb파일은, 분포 분포(확률분포, Probability Distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 그래프로 나타낸다면 가로축은 가질 수 있는 값이, 세로축은 그 값이 나올 확률로 나타낼 수 있겠고, 이때 각 값과 확률과의 관계가 분포 함수가 된다. 예를 들어, 동전을 1번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 0 혹은 1이다. 앞면이 안 나오거나 한 번 나오거나. 그리고 0일 확률은 50%, 1일 확률도 50%이고, 두 확률을 더하면 1이 된다. 만약, 동전을 4번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 {0,1,2,3,4}이고 (한 번도 안 나오면 0, 한 번 나오면 1..
1.2 산포 (이론, 예제 풀이)
산포는 데이터의 흩어짐을 나타내는 지표로, 사분위수, 분산, 표준편차가 있다. (최댓값, 최솟값도 산포를 나타내는 지표로 볼 수 있는데, 이 글에서는 자료를 대표하는 값으로 해서 앞 페이지에서 다뤘다. 산포로 보느냐 대푯값으로 보느냐는 관점의 차이일 뿐) 이 글에 대한 동영상 설명은, 이론 설명(1/2): youtu.be/kwEy1D3BAj8 이론 설명(2/2): youtu.be/KxigT9zega0 예제 풀이: youtu.be/McDbRHObW8I A) 사분위수 사분위수는 데이터 값을 4개의 동일한 부분으로 나눈 값이다. 즉, 데이터를 크기순으로 배열한 후, 4개의 부분으로 나누게 되면, 첫 번째 구분되는 부분은 전체의 25%가 되는 부분(Q1)이 되고, 두 번째는 50%(Q1), 세 번 째는 75%(..
1. 통계량
통계량 단원에서는 아래 내용들을 다룬다. 1.1 대푯값 - 평균, 중앙값, 최빈값, 최솟값, 최댓값 1.2 산포 - 사분위 값, IQR, 분산, 표준편차, 공분산, 상관계수 1.3 데이터 스케일링 - 정규화(MinMax), 표준화(Standard) - 기타: RobustScaler, MaxAbsScaler -끝- 다음 글: 1.1 대푯값(이론)