인공지능 전염병 예측 [뉴스1]
인공지능 전염병 예측 [뉴스1]

예측은 미래 데이터가 아닌 과거의 데이터로 한다. 따라서 새로 데이터를 만들어내는 것이 아니라 이미 존재하는 데이터 속에 미래를 말해줄 실마리를 찾는 것이다.

일반적으로 예측이라고 하면 미래를 내다보는 점쟁이를 떠올리겠지만 그 핵심은 과거 데이터에 있다.

존재하는 모든 데이터는 과거이지 미래가 아니다.

수많은 사람들이 각기 다른 이유로 검색을 한다. 시기별 검색어 순위를 분석해보면 왜 사람들이 그런 검색어와 관련된 내용을 찾는지 어떤 패턴이 나올 수 있고 그러면 이를 이용해 예측도 할 수 있다.

구글도 독감 유행을 예측하는 데 이러한 가능성을 응용한다. 매주 전세계 수백만 명의 사용자들이 건강 정보를 온라인으로 검색하는데, 특히 독감과 관련된 주제를 검색하는 사람의 수와 실제로 독감 증상이 있는 사람 수 간에 밀접한 관계가 있음을 발견했다.

물론 독감에 대해 검색하는 사람이 전부 아픈 것은 아니지만 독감 관련 검색어를 모두 합산해보면 일정한 패턴이 나타난다.

구글은 검색어 수를 기존의 독감 감시 시스템과 비교해 정확히 독감이 유행하는 계절에 관련 검색어가 많아지는 경향을 확인하고 이러한 검색어가 나타나는 빈도를 계산해 전 세계 여러 국가 및 지역에서 독감이 얼마나 유행하는지 예상했다.

이러한 예측을 가능하게 하는 모델은 바로 ‘구글 상관관계’ 소프트웨어가 독감을 예측할 수 있는 검색어들을 발견해 만들어진다.

구글은 정부기관 통계 등 공식 데이터에서 독감 환자들이 병원을 방문한 빈도를 기록한 자료와 동일한 시기에 사람들이 구글로 찾아보는 검색어들 사이의 상관관계를 밝혀냈다.

다시 말해, 시계열 데이터를 통해 실제로 환자들이 병원을 방문한 빈도와 가장 상관관계가 높은 검색어들을 ‘구글 상관관계’로 찾아낸 것이다.

이렇게 발견한 검색어 중 관련도가 높은 상위 5개는 ‘인플루엔자 합병증’, ‘감기/독감 치료제’, ‘일반적인 인플루엔자 증상’, ‘특정 인플루엔자 증상’이다.

바로 이와 같은 변수들이 검색어로 등장하는 비율이 높아진다면 실제 독감이 유행할 확률도 커진다는 것이 구글의 예측 모델이 말하는 내용이다.**

/ 도움말씀= 빅데이터경영연구소

저작권자 © AI라이프경제 무단전재 및 재배포 금지