본문 바로가기

분류 전체보기

(284)
2.2 가설 검정 가설 검정 (정확한 표현으로는 통계적 가설 검정)은, 표본의 정보를 이용해서 모집단의 실제의 값을 추정하는 통계적 추측 방법이다. 쉽게 얘기하면, 어떤 모집단에 대한 특성이 이러이러하다고 얘기하고 싶은데, 모집단은 덩치가 너무 커서 전부 조사할 수 없으니, 일부 표본을 샘플링해서 조사한 후, 그 표본이 이러이러한 특성을 가지니, 모집단도 이러할 것이다라는 것을 추론하는 것이다. 그런데, 가설검정의 방법은 좀 규격화되어 있다. 어떻게 규격화되어 있냐 하면, 1) 기각하고 싶은(=부정하고 싶은) 것을 귀무가설(null hypothesis)로 두고, 그 반대되는 것(=찬성하고 싶은 것)을 대립 가설로 둔다. 2) 표본에 대해 실험한다. 3) 귀무가설이 맞다고 했을 때, 실험처럼 나올 확률을 구한다. 4) 위 ..
2.1 분포 (예제 풀이) 예제에 사용되는 데이터 파일: 예제 풀이인 ipynb 파일: 예제 2.1 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 분포 곡선을 그렸을 때, 평균 주변에서의 곡선 모양이 가장 뾰족한(평균 주변에 가장 데이터가 많은) 칼럼 이름을 적으시오. df = pd.read_csv('heart.csv') df df1 = df[[ 'age', 'trestbps', 'chol', 'thalach', 'oldpeak']] df1.kurtosis() 예제 2.2 heart 데이터를 읽어낸 후, 수치형 데이터 칼럼 {'age', 'trestbps', 'chol', 'thalach', 'oldpeak'}에 대해서 정규화를..
2.1 분포 (이론) 설명에 사용된 ipynb파일은, 분포 분포(확률분포, Probability Distribution)는 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 그래프로 나타낸다면 가로축은 가질 수 있는 값이, 세로축은 그 값이 나올 확률로 나타낼 수 있겠고, 이때 각 값과 확률과의 관계가 분포 함수가 된다. 예를 들어, 동전을 1번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 0 혹은 1이다. 앞면이 안 나오거나 한 번 나오거나. 그리고 0일 확률은 50%, 1일 확률도 50%이고, 두 확률을 더하면 1이 된다. 만약, 동전을 4번 던져서 앞면이 나오는 횟수를 변수로 둔다면, 나올 수 있는 변수의 값은 {0,1,2,3,4}이고 (한 번도 안 나오면 0, 한 번 나오면 1..
2. 분포 및 가설검정 분포와 가설검정을 같은 챕터로 둔 것은, 가설검정의 근거가 분포에 있기 때문이다. 분포(확률분포)에는 여러 종류가 있다. 정규분포, 이산 분포, 푸아송 분포, 베르누이 분포, 기하 분포, 카이제곱 분포, 감마 분포 등등 여기서는 정규분포에 대해서만 알아본다. 그래도 충분하다고 본다. (ttest와 등분산 검정이 t분포, F분포를 근간으로 하긴 하지만, 그 분포가 어떻다는 것만 알아도 될 거 같다. ) -끝- 다음 글: 2.1 분포 (이론)
1.3 데이터 스케일링 (예제 풀이) 사용된 데이터 파일: 예제 1.10 heart 데이터를 읽어낸 후, 'age' 칼럼 데이터에 대해서 정규화한 후 그 평균을 소수점 2째 자리까지 구하시오. (소수점 3째 자리에서 반올림) df = pd.read_csv('heart.csv') df from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() scaler.fit(df[['age']]) arr = scaler.transform(df[['age']]) arr df1 = pd.DataFrame(arr, columns=['age']) df1 df1['age'].mean() 0.5284653465346535 type(arr) numpy.ndarray import numpy as np ..
1.3 데이터 스케일링 (이론) 데이터 스케일링(Data Scaling)은 각 변수들의 범위 혹은 분포를 같게 만드는 작업이다. 이를 통해 각 변수들이 동일한 조건(혹은 범위)을 가지게 되어, 이 변수들에 대한 상대 비교가 가능하게 된다. 데이터 분석을 하기 전 전처리 과정에서, 주어진 방법으로 스케일링하도록 하는 문제가 많이 나온다. A) 정규화 (Normalization) 정규화는 데이터의 값들을 [0,1] 사이의 값이 되게 변환하는 것이다. 정규화 수식은, $$ \frac {(X-Min)}{(Max - Min)}$$ 구현 방법은, 1) 수식을 이용해서 직접 구현 2) sklearn.preprocessing.MinMaxScaler 이용 푸는 예를 보면, import pandas as pd lst = [[-1, 2], [-0.5, 6..
1.2 산포 (이론, 예제 풀이) 산포는 데이터의 흩어짐을 나타내는 지표로, 사분위수, 분산, 표준편차가 있다. (최댓값, 최솟값도 산포를 나타내는 지표로 볼 수 있는데, 이 글에서는 자료를 대표하는 값으로 해서 앞 페이지에서 다뤘다. 산포로 보느냐 대푯값으로 보느냐는 관점의 차이일 뿐) 이 글에 대한 동영상 설명은, 이론 설명(1/2): youtu.be/kwEy1D3BAj8 이론 설명(2/2): youtu.be/KxigT9zega0 예제 풀이: youtu.be/McDbRHObW8I A) 사분위수 사분위수는 데이터 값을 4개의 동일한 부분으로 나눈 값이다. 즉, 데이터를 크기순으로 배열한 후, 4개의 부분으로 나누게 되면, 첫 번째 구분되는 부분은 전체의 25%가 되는 부분(Q1)이 되고, 두 번째는 50%(Q1), 세 번 째는 75%(..
1.1 대푯값 (예제 풀이) 아래 예제 설명에 대한 동영상 강의는 여기 유튜브 참조 앞에서 대푯값에 대한 이론을 알아봤고, 여기서는 그 대푯값을 구하는 예제를 풀어 본다. (여기서 사용된 소스코드 파일은, 이 페이지 하단부에 첨부되어 있음) 아래 예제 1~6번까지는, sklearn패키지에 있는 iris 데이터를 사용하시오. 데이터 불러오기 방법: from sklearn.datasets import load_iris iris = load_iris() # DataFrame으로 만들기 df = pd.DataFrame(iris.data, columns=iris.feature_names) iris 데이터에는 다음과 같은 칼럼 존재 sepal length (cm) : 꽃 받침 길이 sepal width (cm) : 꽃 받침 너비 petal l..
1.1 대푯값 (이론) 아래 쪽 설명에 대한 강의는 여기 유튜브 동영상을 보세요. youtu.be/eFw3S_2vPQ4 대푯값은 자료를 대표하는 값이다. 여러 개의 값으로 구성된 자료에 대해서, 그 전체 값들을 아울러서 대표하는 값이다. 대푯값으로 가장 많이 쓰이는 것은 평균이다. 그 외에도 중앙값, 최빈값, 최솟값, 최댓값들이 자료를 대표하는 하는 값으로 쓰일 수 있다. A) 평균 (Mean) 평균은 해당 자료의 무게 중심에 해당하는 값이다. 자료들의 값을 무게로 본다면, 무게들의 중심에 해당하는 값이다. 전체 평균은 전체 값을 더한 후, 전체 개수로 나누면 된다. 이는 모집단이건 표본집단이건 꼭 같다. (뒤에 설명되는 분산의 경우는 모집단과 표본집단에 대한 수식이 다르다.) Pandas에서 평균은 mean 함수로 구할 수 ..
1. 통계량 통계량 단원에서는 아래 내용들을 다룬다. 1.1 대푯값 - 평균, 중앙값, 최빈값, 최솟값, 최댓값 1.2 산포 - 사분위 값, IQR, 분산, 표준편차, 공분산, 상관계수 1.3 데이터 스케일링 - 정규화(MinMax), 표준화(Standard) - 기타: RobustScaler, MaxAbsScaler -끝- 다음 글: 1.1 대푯값(이론)