본문 바로가기

Information/Corona19(COVID19)

코로나19(Corona19, COVID19) 엑셀 데이터 얻기/가공하기(1/2)

반응형

이 글은, 전 세계 코로나19 신규 확진자 수, 누적 확진자 수, 신규 사망자 수 등의 데이터를 얻고자 할 때 유용한 지식입니다.

 

코로나 데이터를 얻는 여러 가지 방법이 있는데, 여기서 소개할 것은,

  • 데이터 전체를 엑셀로 받는 법
  • 엑셀로 받은 데이터를 유용한 형태로 변환하는 법 

 

코로나 데이터 엑셀로 받기

매일매일 변하는 코로나 데이터를 엑셀로 제공하는 사이트가 있습니다.

 

자료 페이지는 여기 들어가서 다운로드할 수 있고, 

엑셀 파일에 대한 다이렉트 링크인 여기를 눌러서 직접 받을 수도 있음

 

제공 사이트는 `EU Open Data Portal`인데 Creative Commons Attribution 4.0 International 이어서 출처를 명기하기만 하면 배포/수정에 라이선스 제한 없습니다.

 

다운로드한 엑셀은 다음과 같은 포맷.

전 세계 모든 나라에 대해서 2019.12.31부터 현재까지의 일별 감염자 수와 사망자 수가 한 행씩 나열되는 형태입니다.

 

소스 데이터로의 가치는 훌륭합니다. 

 

그러나,  현재 누적 감염자 기준으로 어느 국가가 1등이고 등 우리가 궁금할 만한 정보를 얻기에는 불편한 데이터 구조입니다.  

 

유용한 데이터 구조로 바꿔 보겠습니다.

 

코로나19 데이터 구조 바꾸기

이런 형태의 데이터를 만들 것입니다.

 

세로축으로 날자를 배열시키고 (12/31일 ~ 현재),

가로축에는 각 국가별로 감염자/사망자에 대한 신규/누적/국가 순위가 나타나게 합니다.

 

이렇게 하면 한 국가에 대해서, 예를 들어 한국에 대해서 날자별로 감염자 누계랑 사망자 누계 데이터를 쉽게 찾을 수 있습니다.  

 

이런 시트도 만들 겁니다.

 

날자별로 감염자 누계에 의한 순위

 

처음에 중국이 1위였다가 아래처럼 미국이 1위로 올라가고 점점 더 감염자 발생 국가도 늘어나는 것을 이 데이터로 쉽게 파악이 됩니다.

 


프로그래밍 하기

엑셀 데이터를 다루기에는 VBA for Excel(엑셀 매크로 프로그램)가 최고입니다.

이 VBA 프로그래밍을 통해서 다운로드한 엑셀 데이터를 우리 목적에 맞는 데이터로 바꿀 겁니다.

 

 

완성된 프로그램 파일

VBA프로그램은 program.xlsm이란 파일에 해놨습니다. 

 

program.xlsm 및 5/21일 기준 데이터파일은 이 글의 제일 하단부에 있습니다. 그걸 다운로드 받으면 되고, 데이터 파일은 2~3일 간격으로 업데이트 할 예정입니다. 

직접 데이터를 생성하고픈 사람만 program.xlsm 파일을 이용해서 데이터를 만들고, 그렇지 않고 코로나 데이터만 필요한 사람은 데이터 파일만 다운로드하면 됩니다.

 

데이터 생성 방법은,

 

  1. 위쪽에서 다운로드한 코로나 데이터 파일과 program.xlsm을 엑셀에서 엽니다.
  2. program 파일의 program 시트에 보면 아래와 같은 박스와 버튼이 보일 텐데,
    여기에 다운로드한 코로나 데이터 파일 이름과 그 파일 내 데이터 시트 이름을 넣고 'Run'버튼 클릭

 

 

이렇게 하면 소스파일에 'data'와 'rank' 시트가 생성되고 그 안에 변형된 데이터를 발견할 수 있을 것입니다.

 


program.xlsm 파일안에 있는 매크로 프로그램 구조가 궁금한 분은 다음 페이지 글을 참조하시기 바랍니다.

 


프로그램 파일 및 데이터 파일 (다운로드 용)

 

데이터 기준일: 2020.5.21

 

program_v1.0.xlsm
0.04MB
COVID_20200521.xlsx
1.87MB

반응형