본문 바로가기

Information

(39)
1.1 대푯값 (예제 풀이) 아래 예제 설명에 대한 동영상 강의는 여기 유튜브 참조 앞에서 대푯값에 대한 이론을 알아봤고, 여기서는 그 대푯값을 구하는 예제를 풀어 본다. (여기서 사용된 소스코드 파일은, 이 페이지 하단부에 첨부되어 있음) 아래 예제 1~6번까지는, sklearn패키지에 있는 iris 데이터를 사용하시오. 데이터 불러오기 방법: from sklearn.datasets import load_iris iris = load_iris() # DataFrame으로 만들기 df = pd.DataFrame(iris.data, columns=iris.feature_names) iris 데이터에는 다음과 같은 칼럼 존재 sepal length (cm) : 꽃 받침 길이 sepal width (cm) : 꽃 받침 너비 petal l..
1.1 대푯값 (이론) 아래 쪽 설명에 대한 강의는 여기 유튜브 동영상을 보세요. youtu.be/eFw3S_2vPQ4 대푯값은 자료를 대표하는 값이다. 여러 개의 값으로 구성된 자료에 대해서, 그 전체 값들을 아울러서 대표하는 값이다. 대푯값으로 가장 많이 쓰이는 것은 평균이다. 그 외에도 중앙값, 최빈값, 최솟값, 최댓값들이 자료를 대표하는 하는 값으로 쓰일 수 있다. A) 평균 (Mean) 평균은 해당 자료의 무게 중심에 해당하는 값이다. 자료들의 값을 무게로 본다면, 무게들의 중심에 해당하는 값이다. 전체 평균은 전체 값을 더한 후, 전체 개수로 나누면 된다. 이는 모집단이건 표본집단이건 꼭 같다. (뒤에 설명되는 분산의 경우는 모집단과 표본집단에 대한 수식이 다르다.) Pandas에서 평균은 mean 함수로 구할 수 ..
1. 통계량 통계량 단원에서는 아래 내용들을 다룬다. 1.1 대푯값 - 평균, 중앙값, 최빈값, 최솟값, 최댓값 1.2 산포 - 사분위 값, IQR, 분산, 표준편차, 공분산, 상관계수 1.3 데이터 스케일링 - 정규화(MinMax), 표준화(Standard) - 기타: RobustScaler, MaxAbsScaler -끝- 다음 글: 1.1 대푯값(이론)
0. 강의 개요 목적 - Data Scientist 시험(Pro DS 시험 등)에 나오는 문제들을 풀 수 있게, 기본 개념 및 예제들에 대해서 설명하고자 함 - 시험 대비가 아니어도, 이 강의 내용을 충실히 따라오면, 통계/데이터마이닝 부분의 기초 개념 및 실제 적용을 충분히 할 수 있을 것임 사전 지식 - Python 기본 문법 및 Pandas 기본 기능은 알고 있어야 하고, - 문제 풀이의 툴로 사용할 Jupyter Notebook이 설치되어 있고, 기본적인 사용법을 알고 있어야 함 강의 방법 - 텍스트로 된 설명 및 강의 자료는 이 tistory 페이지에 게재 - 동영상은 youtube에 올리고, 그 링크를 여기 tistory페이지내에 기재 - 코드는 쥬피터 노트북에서 생성되는 ipynb 파일로 작성/배포할 것임 ..
코로나 확진자 수/ 사망자 수에 대한 물방울 차트(Bubble Chart) 애니메이션 파이썬을 이용해서 다음과 같은 애니메이션을 만들고자 한다. (아래는 애니메이션 실행되는 것을 캡처한 그림임) 물방울 차트(bubble chart)라고 불리는 것으로, 한스 로슬링(Hans Rosling) 교수님이 유행시킨 차트이다. x축은 신규 확진자 수에 대한 로그 스케일 값이고(주별 합계), y축은 주별 사망자 수 합계에 대한 로그 스케일 값이다. 로그 스케일로 변환하지 않으면 데이터의 간극이 너무 커서 제대로 표현되지 않는다. (적게 발생한 국가와 많이 발생한 국가 간 간극이 너무 큼) 물방울의 크기는 그 국가의 인구 수를 나타내고, 색깔은 어느 대륙에 있는지를 표시한다. 프로그램 작성 방법 프로그램 언어로 파이썬을 사용하고, 주피터 노트북을 이용한다. 코로나 데이터는 ECDC 사이트에서 다운로드한..
국가별 코로나(COVID-19) 확진자 그래프 그리기 코로나 데이터를 인터넷에서 자동으로 다운로드하고, 이 데이터를 이용해서 국가별 코로나 신규 확진자 및 누적 확진자 추이 그래프를 그리는 프로그램을 작성해보겠다. (아래 그림과 같은) 코로나 데이터 코로나 데이터는 ECDC 사이트를 이용하도록 하겠다. 여기서는 매일 전 세계 코로나 데이터를 갱신해서 올려주고, 그 데이터를 무료로 다운로드할 수 있다. ECDC 사이트: https://data.europa.eu/ 엑셀파일 자동 다운 링크: https://www.ecdc.europa.eu/sites/default/files/documents/COVID-19-geographic-disbtribution-worldwide.xlsx 프로그램 구상 프로그램은 파이썬을 사용해서 할 것이고, 소스는 .py로도 만들고, 주..
등각 나선, 나방이 광원 주위로 몰려드는 이유 나방을 '불나방'이라고도 한다. 불을 좋아하는 나방, 불을 보면 앞뒤 안 보고 달려드는 나방이라서 그런 이름이 붙여졌다. 밤에 이동하는 대부분의 날개가 있는 곤충들은 불을 보면 모여드는 것 같다. 해서, 이런 곤충들의 습성을 이용해서 '곤충 퇴치기'를 만들기도 한다. 그런데 왜 나방을 비롯한 날곤충들은 불로 뛰어들까? 불이 좋아서 그렇다고 하는데, 아니 왜 불이 좋단 말인가? 불이 좋아서 이득이 있어야 할 거 아닌가? 뛰어들어봐야 죽기만 하는데...(어릴 적부터 들던 의문점이었다. 나방들은 멍청한 걸까?) 나는 모든 현상에는 그 이유가 있고, 특히나 생물체의 유전적 행동에는 그 진화론적 당위성이 있다고 생각한다. 그런 현상 및 행동을 함으로써 살아남을 수 있었던 이점이 있다는 것이다. 나방이 불을 향해 ..
자연 상수(e, Euler Number)의 의미 이 글은 왜 기간을 무한대로 한 복리계산 값이 $e^r$이 되는지, 미래가치(Future Value)의 계산이 왜 $FV = PV \cdot e^r$이 되는지, 그리고 자연상수 혹은 오일러 수(Euler's Number)라고 불리는 $e$가 무엇이고 어떻게 계산되고 의미는 무엇인지를 설명한다. $e$란 무엇? $e$는 자연상수 혹은 오일러 수(Euler's Number)라고 불리고, 값은 무리수로서 약 $2.718...$ 정도의 값을 가진다. 자연계의 현상을 잘 설명한다고 해서 자연상수로 불리고, $e$를 밑수로 하는 로그를 자연로그라고 하고 $\ln$으로 표기하기도 한다. $$\ln x = \log _{e}{x} $$ $e$ 구해보기 $e$값이 어떻게 되는지 구하는 것은 크게 2가지 방법이 있다. 하나..
UWB(Ultra Wide Band, 초광대역) 기술 분석(2/2) UWB에서 사용하는 주파수 UWB는 500 MHz에 이르는 광 대역폭을 사용합니다. 그렇기에 UWB를 이용해서 세밀한 거리 측정이 가능하다는 것은 앞 글에서 살펴 봤습니다. IEEE 802.15.4-2011에서의 UWB 대역폭 기준은 500 MHz~1300 MHz입니다. 여기서 문제는, 각 나라에서는 무선 주파수에 대해서 각 주파수별로 사용 용도를 한정해서, 사용 주파수끼리 간섭이 발생하지 않도록 하고 있습니다. UWB의 경우는 사용되는 파워 레벨이 매우 낮아서 간섭 현상이 많지 않으나, 그래도 다른 주파수와 혼용되면 간섭이 발생할 것이기에, UWB에 대해서도 지정된 주파수만을 사용하도록 하고 있고, 각 나라마다 다른 주파수 대역이 가능하기에, UWB 표준에서는 3.1 GHz~10.6 GHz 사이에 14..
UWB(Ultra Wide Band, 초광대역) 기술 분석(1/2) 몇 년마다 가끔, 기존의 기술로 해결하지 못했던 것을 해결하며 기존의 비즈니스 시장 구도 자체를 바꿔버리는 기술이 툭하니 등장하곤 합니다. 이를 와해성 기술(Desruptive Technology)라고 부르고, 이러한 와해성 기술을 빨리 캐치 업하고 이를 상품화한 기업만이 살아남습니다. 문제는 처음 와해성 기술이 나왔을 때, 이게 과연 시장을 바꿀만한 기술인지, 과연 성공해서 살아남을 수 있는 기술인지 판단이 쉽지 않습니다. 처음 이러한 기술이 나올 때는 가격도 비싸고, 여러 문제점 투성이기 때문입니다. 돌이켜 생각해보면 디지털카메라가 그랬고(이로 인해 필름, 카메라 산업 자체가 붕괴/재편되었음), 스마트 폰이 그랬고, SSD가 그랬습니다. 2020.7월 현재, UWB 기술이 그런 조짐을 보입니다. 이 ..