본문 바로가기

Information/통계강의

1.1 대푯값 (이론)

반응형

아래 쪽 설명에 대한 강의는 여기 유튜브 동영상을 보세요. 

 

youtu.be/eFw3S_2vPQ4

 


대푯값은 자료를 대표하는 값이다. 

 

여러 개의 값으로 구성된 자료에 대해서, 그 전체 값들을 아울러서 대표하는 값이다.

 


대푯값으로 가장 많이 쓰이는 것은 평균이다. 

그 외에도 중앙값, 최빈값, 최솟값, 최댓값들이 자료를 대표하는 하는 값으로 쓰일 수 있다.

 


A) 평균 (Mean)

평균은 해당 자료의 무게 중심에 해당하는 값이다. 자료들의 값을 무게로 본다면, 무게들의 중심에 해당하는 값이다.

 

전체 평균은 전체 값을 더한 후, 전체 개수로 나누면 된다. 이는 모집단이건 표본집단이건 꼭 같다. (뒤에 설명되는 분산의 경우는 모집단과 표본집단에 대한 수식이 다르다.)

 

Pandas에서 평균은 mean 함수로 구할 수 있다. (정확하게 얘기하면 Series 클래스의 mean 함수)

 

평균을 구하는 예제를 알아보자.

(아래는 그림 형태이고, 텍스트로 된 자료는 첨부된 ipynb 파일 참조)

 


B) 중앙값(median)

 

중앙값은, 자료의 값들을 크기 순서대로 나열했을 때, 가장 가운데 위치에 있는 값이다. 

 

자료의 개수가 홀수의 경우는 가장 가운데 위치한 값 1개가 중앙값이 되고, 전체의 개수가 짝수의 경우는 가운데 2개 값에 대한 평균이 중앙값이 된다.

예를 들어, [1,2,3,4]에 대한 중앙값은, 가운데의 {2,3}에 대한 평균인 2.5가 된다.

 

중앙값은 Series의 median 함수로 구할 수 있다.

 

예제를 보자.

 


C) 최빈값(mode)

 

최빈값은 자료에서 가장 많이 있는(가장 빈번하게 관찰되는) 값이다.

 

예제를 통해 알아보자.


D) 최솟값, 최댓값

 

최솟값이나 최댓값도 자료를 대표하는 값이 될 수 있다.

 

고등학교의 순위를, 서울대 입학한 학생 수로 본다면, 입학한 학생수의 최댓값이 그 학교를 대표하는 것이 된다. (그렇게 순위를 매기는 것이 정당하냐 안 하냐는 차치하고)

 

Series에서 최솟값과 최댓값을 구하는 함수는,

사용예를 보면,


첨부 자료:

1.통계량_1.1 대푯값.ipynb
0.04MB

 

-끝-

 

 

다음 글: 1.1 대푯값 (예제)

 

반응형

'Information > 통계강의' 카테고리의 다른 글

1.3 데이터 스케일링 (이론)  (0) 2021.02.13
1.2 산포 (이론, 예제 풀이)  (0) 2021.02.12
1.1 대푯값 (예제 풀이)  (0) 2021.02.12
1. 통계량  (0) 2021.02.12
0. 강의 개요  (0) 2021.02.12