본문 바로가기
@ '통계학' 당주힘실

[당주힘실 통계학_엑셀편] 17. 폭우관련 역대 강수량 자료를 요약한다(평균, 분산 등 & 관계)

by jjsm1000:) 2022. 9. 7.
당.주.힘.실 : 당신의 주장에 힘을 실어줄

 


*엑셀편은 microsoft excel 2016을 활용하였습니다

 

목차

1. 2003~2022 강수량 자료의 요약

1-1. 기술통계법의 출력(분석)

1-2. 함수를 이용한 기본적인 통계량

2. 소나기 의심?! 일 강수량과 1시간 강수량 사이 (두 변수간 관계)

2-1. 표본 상관계수 구하기

2-2. 산점도 그리기

 

1. 강수량 자료의 요약

강남의 폭우 사건으로 수많은 인원이 피해를 받았다. 지구 온난화로 인한 기상이변이 점점 체감되는 수준이다. 2003년부터 2022년까지의 6,7,8월의 역대 강수량 자료를 추출하였다. 이 자료에서 중심위치를 알아보기 위한 평균과 중앙값 퍼진 정도의 수치인 분산, 표준편차, 범위, 사분위수 범위를 엑셀을 이용하여 구해본다. 해당 월 중에 최다 강수량 일자의 하루 강수량 수치를 추출했다.

 

(자료, 단위:mm)

51.5 173.5 177 84 108.5 43.5 95.5 115 57.5 63 241 32 22 76 42 62.5 127.5 72.5 48.5 190 113.5 71 89.5 99 177 301.5 41.5 69.5 102.5 137 12 165 45 33 59.5 46.5 44.5 80 29 30.5 108.5 20 29 144.5 124.5 71.5 83.5 96.5 35.3 62.3 56.2 64.7 103.1 102.6 38.2 67.4 77.4 176.2 114.5 129.6

 

1-1. 기술통계법의 출력

엑셀의 분석 도구를 이용하면 위의 통계량들을 쉽게 구할 수 있다. 자료를 임의의 열에 입력한 후 데이터 탭의 분석 그룹에 데이터 분석을 선택하여 나타난 대화 상자에서 기술통계법을 선택하면 대화 상자가 나타난다.

데이터분석-기술통계법

 

이때 자료가 있는 영역과 필요한 통계량들을 선택 및 지정하여 확인을 누르면 새로운 워크시트에 기본 통계량들을 얻을 수 있다.

데이터 입력
기술통계법의 출력

 

위 기술통계법에 출력된 평균 88.925mm에 비교했을 때 물론 비가 정말 오지 않은 년도도 있겠지만 가볍게 비교했을 때 올해 정말 많은 비가 온 것을 확인할 수 있다. 다시 언급하지만 정말 오지 않은 년도에 대한 퍼진 정도, 즉 표준편차가 56.52 수준으로 꽤 큰 수준이기는 하다. 역대 강수량으로 알아본 수치 중에 최솟값 12mm도 심각한 수준이었다는 것을 알 수 있다. 2022년도 강수량은 아래 표를 참고한다.

2022 6,7,8월 일 최다 강수량

 

 

1-2. 함수를 사용한 기본 통계량

위와 같은 기본적인 통계량들은 엑셀의 함수를 이용하여 구할 수도 있다. 엑셀에 내장되어 있는 통계 관련 함수에는 여러 가지가 있는데 이들을 보려면 엑셀에서 수식 탭에서 함수 삽입을 선택하면 함수 마법사가 나타난다.

함수마법사

 

범주 선택에서 통계를 선택하면 함수 선택 창에 통계와 관련된 함수를 볼 수 있다. 각 함수에 대한 자세한 설명은 도움말을 이용하면 얻을 수 있다. 다음은 이장에서 많이 이용되는 함수의 이용방법을 정리했다.

평균: =AVERAGE{범위}

중앙값: =MEDIAN{범위}

분산: =VAR{범위}

표준편차: =SETDEV{범위}

최솟값/최댓값: =MIN/MAX{범위}

사분위수: QUARTILE, Array에 범위 입력, Quart에 0~4입력하여 필요한 분위수 출력 가능

 

 

2. 각 월과 강수량 사이의 관계(두 변수의 관계)

여름을 기준으로 하다 보니 위 강수량 자료는 6, 7, 8월 모두 추출하게 되었다. 아무래도 태풍이 있는 8월이 강수량이 제일 많을 것이다. 그런데 한 가지 의문점이 생길 수 있다. 최대 강수량이 폭우로 이어질 수 있는지 확인해봐야 한다. 그래서 일 최다 강수량과 1시간 최다 강수량에 대해 비교할 예정이다. 그 이유는 최다 강수량과 1시간 최다 강수량의 상관관계와 그 정도에 따라 그날이 소나기에 의한 것인지 진성 폭우 기간으로 볼 수 있는지 알 수 있을 것이다. 가장 하단의 산점도를 참고하여 소나기성 폭우, 하루 종일 비가 내린 폭우인지를 확인할 수 있다.

두 변수간 관계에 대해 알고 싶은 것이고 변수 x를 수평축에 높고 변수 y를 수직축에 놓아 좌표 위에 표시한 산점도를 볼 것이고, 얼마나 직선에 가까운가의 정도 상관계수로 확인할 것이다.

 

일 최다 강수량 vs. 1시간 최다 강수량

 

2-1. 표본 상관계수 구하기

엑셀의 위 줄에서 함수 마법사를 선택하고 범주 선택에서 '통계'를, 함수 선택에서 'CORREL'을 선택하고 확인을 누른다.

함수 마법사-CORREL

CORREL의 괄호 안에 각 열을 선택하고 확인을 누르면 상관계수를 얻을 수 있다. 확인을 누르지 않고도 아래 빨간 박스에서 미리 확인이 가능하다. 상관계수는 0.62637이다. 0.8 이상을 강한 상관관계로 보지만 0.6 이상이므로 상관관계있음을 알 수 있다.

 

 

2-2. 산점도 그리기

두 변수의 산점도를 그리려면 산점도를 그리기 위한 영역을 선택한 후 삽입 탭의 차트 그룹에서 분산형의 산점도를 선택하면 된다.

산점도 삽입(회색박스 참고)
산점도

 

위 산점도의 경우 점들이 한쪽에 몰려 있어서 그 관계를 알아보기 어려우므로 두 좌표축의 범위를 조절할 필요가 있다. 범위 조절은 각 x, y축에 마우스 우클릭하여 축서식 - 축 옵션에서 최솟값과 최댓값을 수동으로 적절한 값을 지정하면 된다.

빨간 원형은 소나기 성 폭우일 확률이 높고, 파란 원형은 하루 종일 비가 온 진성 폭우일 확률이 있다는 것을 확인할 수 있다.

축 값을 조절한 산점도

 


 

댓글