본문 바로가기

Information/통계강의

(13)
2.3.1 Z-검정 2.3.1 Z-검정 모집단의 평균과 표준편차가 얼마라는 것이 알려져 있을 때, 새롭게 조사된 표본의 평균이 모집단의 평균과 같은 지를 추정하는 검정이다. 이때 표본의 크기는 30보다 커야 하고 모집단에서 균일한 확률로 선택되어야 한다. (작은 수의 표본일 경우는 t-검정을 수행) Z-검정을 할 수 있는 조건 종속 변수가 양적 변수 모집단의 평균과 표준편차를 알아야 함 모집단의 분포가 정규분포여야 함 두 집단을 비교할 경우, 두 집단의 분산이 같아야 함 Z-검정에서의 귀무/대립 가설 귀무가설: 모집단의 평균과 표본 평균이 같다. 대립가설: 모집단의 평균과 표본 평균이 다르다. Z-검정 방법 표본의 Z 검정 통계량을 구하고, Z 값이 임계값 보다 크고 작음에 따라 귀무가설을 기각 혹은 채택한다. Z검정 통계..
2.3 평균에 대한 검정 평균에 대한 검정은, "자료의 평균이 얼마이다" "두 자료의 평균이 같다" 등과 같이, 자료의 평균값에 대한 검정을 수행하는 것을 말한다. 이러한 검정으로는 Z-검정, t-검정, ANOVA 등이 있다. 2.3.1 Z-검정 2.3.2 t-검정 2.3.3 ANOVA -끝-
2.2 가설 검정 가설 검정 (정확한 표현으로는 통계적 가설 검정)은, 표본의 정보를 이용해서 모집단의 실제의 값을 추정하는 통계적 추측 방법이다. 쉽게 얘기하면, 어떤 모집단에 대한 특성이 이러이러하다고 얘기하고 싶은데, 모집단은 덩치가 너무 커서 전부 조사할 수 없으니, 일부 표본을 샘플링해서 조사한 후, 그 표본이 이러이러한 특성을 가지니, 모집단도 이러할 것이다라는 것을 추론하는 것이다. 그런데, 가설검정의 방법은 좀 규격화되어 있다. 어떻게 규격화되어 있냐 하면, 1) 기각하고 싶은(=부정하고 싶은) 것을 귀무가설(null hypothesis)로 두고, 그 반대되는 것(=찬성하고 싶은 것)을 대립 가설로 둔다. 2) 표본에 대해 실험한다. 3) 귀무가설이 맞다고 했을 때, 실험처럼 나올 확률을 구한다. 4) 위 ..
2.1 분포 (예제 풀이) 예제에 사용되는 데이터 파일: 예제 풀이인 ipynb 파일: 예제 2.1 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 분포 곡선을 그렸을 때, 평균 주변에서의 곡선 모양이 가장 뾰족한(평균 주변에 가장 데이터가 많은) 칼럼 이름을 적으시오. df = pd.read_csv('heart.csv') df df1 = df[[ 'age', 'trestbps', 'chol', 'thalach', 'oldpeak']] df1.kurtosis() 예제 2.2 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 정규화를..
2.1 분포 (이론) 설명에 사용된 ipynb파일은, 분포 분포(확률분포, Probability Distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 그래프로 나타낸다면 가로축은 가질 수 있는 값이, 세로축은 그 값이 나올 확률로 나타낼 수 있겠고, 이때 각 값과 확률과의 관계가 분포 함수가 된다. 예를 들어, 동전을 1번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 0 혹은 1이다. 앞면이 안 나오거나 한 번 나오거나. 그리고 0일 확률은 50%, 1일 확률도 50%이고, 두 확률을 더하면 1이 된다. 만약, 동전을 4번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 {0,1,2,3,4}이고 (한 번도 안 나오면 0, 한 번 나오면 1..
2. 분포 및 가설검정 분포와 가설검정을 같은 챕터로 둔 것은, 가설검정의 근거가 분포에 있기 때문이다. 분포(확률분포)에는 여러 종류가 있다. 정규분포, 이산 분포, 푸아송 분포, 베르누이 분포, 기하 분포, 카이제곱 분포, 감마 분포 등등 여기서는 정규분포에 대해서만 알아본다. 그래도 충분하다고 본다. (ttest와 등분산 검정이 t분포, F분포를 근간으로 하긴 하지만, 그 분포가 어떻다는 것만 알아도 될 거 같다. ) -끝- 다음 글: 2.1 분포 (이론)
1.3 데이터 스케일링 (예제 풀이) 사용된 데이터 파일: 예제 1.10 heart 데이터를 읽어낸 후, 'age' 칼럼 데이터에 대해서 정규화한 후 그 평균을 소수점 2째 자리까지 구하시오. (소수점 3째 자리에서 반올림) df = pd.read_csv('heart.csv') df from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaler.fit(df[['age']]) arr = scaler.transform(df[['age']]) arr df1 = pd.DataFrame(arr, columns=['age']) df1 df1['age'].mean() 0.5284653465346535 type(arr) numpy.ndarray import numpy as np ..
1.3 데이터 스케일링 (이론) 데이터 스케일링(Data Scaling)은 각 변수들의 범위 혹은 분포를 같게 만드는 작업이다. 이를 통해 각 변수들이 동일한 조건(혹은 범위)을 가지게 되어, 이 변수들에 대한 상대 비교가 가능하게 된다. 데이터 분석을 하기 전 전처리 과정에서, 주어진 방법으로 스케일링하도록 하는 문제가 많이 나온다. A) 정규화 (Normalization) 정규화는 데이터의 값들을 [0,1] 사이의 값이 되게 변환하는 것이다. 정규화 수식은, $$ \frac {(X-Min)}{(Max - Min)}$$ 구현 방법은, 1) 수식을 이용해서 직접 구현 2) sklearn.preprocessing.MinMaxScaler 이용 푸는 예를 보면, import pandas as pd lst = [[-1, 2], [-0.5, 6..
1.2 산포 (이론, 예제 풀이) 산포는 데이터의 흩어짐을 나타내는 지표로, 사분위수, 분산, 표준편차가 있다. (최댓값, 최솟값도 산포를 나타내는 지표로 볼 수 있는데, 이 글에서는 자료를 대표하는 값으로 해서 앞 페이지에서 다뤘다. 산포로 보느냐 대푯값으로 보느냐는 관점의 차이일 뿐) 이 글에 대한 동영상 설명은, 이론 설명(1/2): youtu.be/kwEy1D3BAj8 이론 설명(2/2): youtu.be/KxigT9zega0 예제 풀이: youtu.be/McDbRHObW8I A) 사분위수 사분위수는 데이터 값을 4개의 동일한 부분으로 나눈 값이다. 즉, 데이터를 크기순으로 배열한 후, 4개의 부분으로 나누게 되면, 첫 번째 구분되는 부분은 전체의 25%가 되는 부분(Q1)이 되고, 두 번째는 50%(Q1), 세 번 째는 75%(..
1.1 대푯값 (예제 풀이) 아래 예제 설명에 대한 동영상 강의는 여기 유튜브 참조 앞에서 대푯값에 대한 이론을 알아봤고, 여기서는 그 대푯값을 구하는 예제를 풀어 본다. (여기서 사용된 소스코드 파일은, 이 페이지 하단부에 첨부되어 있음) 아래 예제 1~6번까지는, sklearn패키지에 있는 iris 데이터를 사용하시오. 데이터 불러오기 방법: from sklearn.datasets import load_iris iris = load_iris() # DataFrame으로 만들기 df = pd.DataFrame(iris.data, columns=iris.feature_names) iris 데이터에는 다음과 같은 칼럼 존재 sepal length (cm) : 꽃 받침 길이 sepal width (cm) : 꽃 받침 너비 petal l..