• 페이스북
  • 트위터
  • 카카오스토리
  • 헤럴드포럼
  • [세상속으로-김용대 서울대 통계학과 교수] 폭염을 위한 데이터 과학

  • 기사입력 2018-08-08 11:29
    • 프린트
    • 메일
    • 크게
    • 작게
  • 페이스북
  • 트위터
  • 카카오스토리
폭염이 전국을 덮치고 있다. 북핵문제, 경제침체, 미투운동 등 우리나라 사회의 모든 이슈들이 폭염에 묻히고 있다. 

1908년 기상관측을 시작한 이래로 여름 일 최고기온을 갈아치우고 있다. 홍천은 41도로 1942년의 대구 40도를 넘어섰으며, 서울도 39.6도로 종전 최고기온을 경신하였다.

폭염은 우리의 일상생활에 큰 영향을 준다. 폭염은 우리의 건강을 위협한다. 탈진이나 일사병 외에도 심혈관질환자와 호흡기질환자의 사망률을 크게 높인다는 것이 과학적으로 밝혀졌다. 건강뿐 아니라 시회ㆍ경제적으로도 많은 문제를 야기한다.

당장 냉방기기 과사용으로 인한 전기료폭탄으로 가정경제에 악영향을 미치고 있다. 전기 수급에도 영향을 미친다. 7월 말에 전력예비율이 10% 미만으로 떨어지기도 하였다. 다행히 아직 전력수급에 대한 문제가 크게 대두되지 않은 것은 2011년의 전력 대란 이후 전력수급을 잘 준비해온 덕분일 것이다. 농축산물에도 막대한 피해를 준다. 돼지, 닭 등 집단 사육하는 가축들의 집단 폐사가 빈번히 발생하며, 직사광선에 의한 생육부진으로 인한 과수농가의 피해가 늘고 있다.

폭염이나 홍수, 가뭄 등의 기상이변은 인간의 노력으로 줄일 수는 없다. 하지만, 데이터 과학을 통하여 피해를 줄이기 위한 준비를 할 수 있다. 폭염예측을 통하여 적절한 전력 수급계획을 세울 수 있으며, 최대 강수량 예측을 바탕으로 댐이나 제방의 높이를 안전하게 관리할 수 있으며, 가뭄예측을 바탕으로 저수지나 댐 건설을 통한 수자원 수급 계획을 수립한다.

기상이변 예측을 위한 데이터과학은 마케팅이나 불량률 관리 등을 위한 일반적 데이터 과학과는 그 결이 조금 다르다. 일반적인 데이터 과학에서 가장 중요한 통계량은 아마도 평균일 것이다. 평균학점, 평균소득 등 우리는 일상생활에서 부지불식간에 평균을 사용한다.

평균에 대한 아주 유명한 데이터과학의 이론은 중심 극한정리이다. 18세기 독일의 수학자 가우스에 의해서 모집단의 분포에 상관없이 평균의 분포는 정규분포로 근사 된다는 것이 증명되었으며, 현재 데이터과학의 가장 중요한 도구로 자리 잡고 있다. 심지어 고등학교 수학에서도 정규분포를 다룬다.

기상이변 예측에서는 평균보다는 극단 값, 즉 최대치나 최소치에 더 관심이 있다. 최대온도나 최대 강수량 등이 평균온도나 평균 강수량에 비해서 훨씬 더 중요한 통계량이다. 제방이나 댐의 높이를 결정할 때, 평균 강수량은 아무 의미가 없다. 제방이나 댐의 높이는 최대 강수량보다 높아야 한다. 그래야 강의 범람을 막을 수 있다.

네덜란드는 1953년에 북해의 범람으로 인한 홍수로 큰 피해를 입었다. 특히, 네덜란드는 국토의 대부분이 해발 1미터이거나 해수면보다 낮으며, 전체 인구 중 반 이상이 저지대에 밀집해 있어서 바닷물의 범람에 취약하다.

네덜란드 정부는 1953년 홍수를 계기로 홍수피해를 줄이기 위하여 데이터 과학적 접근법을 도입한다. 예를 들면, 제방의 높이를 결정할 때 주먹구구식으로 하지 않고, 300년 동안의 바다의 최대 수위를 예측하고 이보다 높게 제방을 건설한다.

극단 값의 예측은 평균의 예측보다 훨씬 어렵다. 300년 동안의 최대 강수량을 구해야 하지만, 관측자료는 많아야 100년 정도밖에 없기 때문이다.

이러한 데이터 부족 현상을 해결할 수 있는 이론이 20세기 중반에 도출되었다. 평균에 대한 중심극한정리와 비슷하게, 최대값의 분포는 근사적으로 특정한 3가지 분포만을 가진다는 극단분포이론이 정립되었다. 이를 통하여 100년 자료를 통해서 300년을 예측할 수 있는 길이 열렸다.

기상이변을 위한 데이터과학은 금융이나 제조업에서도 사용된다. 1997년 IMF 사태나 2008년 금융위기 등 극단적인 금융위기의 예측이나, 기체 이상으로 인한 비행기 추락 확률 등의 예측에 적용되고 있다.

인류의 생존을 위한 데이터 과학의 역할에서, 왜 “데이터비지니스”나 “데이터공학”이라 하지 않고 “데이터과학”이라 부르는 지 그 연유를 살펴볼 수 있다. 무명의 데이터 과학자들에게 경의를 표하고 싶다.
핫이슈 아이템
포토슬라이드
  • 핫보디, 핫비키니
    핫보디, 핫비키니
  • 마이애미 해변의 유혹( 誘惑)~~~
    마이애미 해변의 유혹( 誘惑)~~~
  • 피겨 요정 아찔연기 어디까지~~~~
    피겨 요정 아찔연기 어디까지~~~~
  • 이보다 섹시할 순 없다.~~~
    이보다 섹시할 순 없다.~~~
핫 클릭
비즈링크