[신호와 소음] 통계학을 기반으로 하는 예측의 심오함을 잘 보여주는 통계학의 대가, 네이트 실버의 베스트셀러
지구상의 수많은 정보들이 떠돌아다니고 있고 지금 세계는 이런 데이터들을 어떻게 잘 분석하여 의미있는 결과를 만들어내려고 노력하고 있다. 이른바 빅데이터(BigData) 시대에 우리는 살고 있는 것이다. 과거에는 분석할 수 없어서 무시했던 정보들이 IT의 발전으로 인해 분석 능력이 좋아져서 연관분석, 상관분석 등과 같은 방식으로 서로 다른 형태의 정보들을 분석할 수 있는 시대에 접어들고 있다. 이른바 다양한 정보의 분석을 통해 미래를 예측하여 이득을 이끌어내기 위한 방법을 원하는 시대가 온 것이다.
신호와 소음. 어떻게 보면 빅데이터 시대에 있어서 수많은 정보들은 다 소음처럼 보이며 그 가운데 의미있는 신호를 찾아내는 것이 빅데이터 시대에 시스템이, 그리고 분석가가 해야 할 일이라고 본다. 소음 가운데서 신호를 찾아내어 그 신호가 의미하는 바를 분석하고 그에 맞춰서 미래를 예측하고 대응하는 것이 빅데이터 시대에 빅데이터를 다루는 시스템과 분석가가 해야 할 일이라고 볼 수 있다는 얘기다.
그런 의미에서 여기에 책 한권을 소개해볼까 한다. 위에서 언급했던 '신호와 소음'을 제목 그대로 책으로 볼 수 있어서 말이다. 이전 미국 대통령 선거에서 오바마 대통령의 재선을 예측했고 50개주의 결과를 모두 맞춘 통계학의 대가인 네이트 실버가 만든 이 '신호와 소음'이라는 책은 뉴욕타임즈에서 15주간 베스트셀러 1위에 올랐고 아마존에서 올해의 책으로 선정되었던 책이다. 빅데이터의 근간이 되는 대용량의 정보들, 그 정보들의 대부분은 소음으로 치부될 수 있겠지만 그 가운데 신호를 찾아내기 위한 노력에 대해서 이 책을 통해서 어느정도 실마리를 잡을 수 있지 않겠는가 싶다.
참고로 이 책은 빅데이터의 기술적인 이야기를 다루는 책은 아니다. 주로 통계학을 기초로 한 확률 및 예측에 대한 이야기를 다양한 실제 상황을 예로 들어 설명을 했다. 서브프라임 모기지론으로 인한 금융위기부터 시작하여 메이저리그에서 일어나는 선수들과 스카우터들의 이야기, 질병의 발생에 대한 이야기와 지진에 대한 이야기 등 통계학을 이용한 예측에 대해서 지금까지의 그런 내용들이 얼마나 잘 들어맞았는가 하는 장점과 그 통계학 및 예측이 얼마나 틀렸는가 하는 부분을 얘기하여 소음과 신호를 어떻게 구분해야 하는지를 나름 알기쉽게 설명하고자 한 책이라고 봐야 할 것이다. 단순히 빅데이터 시스템에 대한 이야기를 바라고 이 책에 접근한다면 큰 낭패를 볼 수 있다. 650장이 넘는 분량이 대부분 통계와 예측에 대한 이야기로 꾸며져있기 때문에 말이다. 하지만 빅데이터의 근간은 이런 대용량의 정보 안에서 패턴을 찾아내는 것으로 통계와 예측이 꼭 필요한 기본 분야인만큼 알아두면 좋은 내용이 잔뜩 담여있음은 분명하다.
빅데이터 시스템에 대해서 그 이론적인 배경에 대해서 먼저 알고 시스템을 접근하는 것이 빅데이터를 이해하는데 도움이 되지 않을까 하는 생각을 해본다. 그런 의미에서 통계학이 갖고 있는 의미와 그것을 기반으로 하는 예측이 얼마나 어려운 일인지를 이 책을 통해서 먼저 접하고 그런 다음에 그 어려운 예측을 시스템을 통해서 얼마나 보완할 수 있는지를 생각해본다면 이 책이 주는 의미는 결코 작지는 않을 것이라 생각이 든다. 달래 아마존에서 올해의 책으로 선정하지는 않았을테니 말이다.
이 책은 앞서 얘기했던 것처럼 네이트 실버가 지었고 이경식이라는 분이 번역을 했으며 더 퀘스트를 통해서 발간이 되었다.