본문 바로가기

Information/통계강의

(13)

1.1 대푯값 (이론) 아래 쪽 설명에 대한 강의는 여기 유튜브 동영상을 보세요. youtu.be/eFw3S_2vPQ4 대푯값은 자료를 대표하는 값이다. 여러 개의 값으로 구성된 자료에 대해서, 그 전체 값들을 아울러서 대표하는 값이다. 대푯값으로 가장 많이 쓰이는 것은 평균이다. 그 외에도 중앙값, 최빈값, 최솟값, 최댓값들이 자료를 대표하는 하는 값으로 쓰일 수 있다. A) 평균 (Mean) 평균은 해당 자료의 무게 중심에 해당하는 값이다. 자료들의 값을 무게로 본다면, 무게들의 중심에 해당하는 값이다. 전체 평균은 전체 값을 더한 후, 전체 개수로 나누면 된다. 이는 모집단이건 표본집단이건 꼭 같다. (뒤에 설명되는 분산의 경우는 모집단과 표본집단에 대한 수식이 다르다.) Pandas에서 평균은 mean 함수로 구할 수 ..

1. 통계량 통계량 단원에서는 아래 내용들을 다룬다. 1.1 대푯값 - 평균, 중앙값, 최빈값, 최솟값, 최댓값 1.2 산포 - 사분위 값, IQR, 분산, 표준편차, 공분산, 상관계수 1.3 데이터 스케일링 - 정규화(MinMax), 표준화(Standard) - 기타: RobustScaler, MaxAbsScaler -끝- 다음 글: 1.1 대푯값(이론)

0. 강의 개요 목적 - Data Scientist 시험(Pro DS 시험 등)에 나오는 문제들을 풀 수 있게, 기본 개념 및 예제들에 대해서 설명하고자 함 - 시험 대비가 아니어도, 이 강의 내용을 충실히 따라오면, 통계/데이터마이닝 부분의 기초 개념 및 실제 적용을 충분히 할 수 있을 것임 사전 지식 - Python 기본 문법 및 Pandas 기본 기능은 알고 있어야 하고, - 문제 풀이의 툴로 사용할 Jupyter Notebook이 설치되어 있고, 기본적인 사용법을 알고 있어야 함 강의 방법 - 텍스트로 된 설명 및 강의 자료는 이 tistory 페이지에 게재 - 동영상은 youtube에 올리고, 그 링크를 여기 tistory페이지내에 기재 - 코드는 쥬피터 노트북에서 생성되는 ipynb 파일로 작성/배포할 것임 ..

이전 1 2 다음

티스토리툴바