통계학의 영역은 크게 기술통계와 추리통계로 분류할 수 있다. 그 중 기술통계에서는 평균, 분산, 표준편차 등의 대표값을 활용하게 되지만, 이 과정에서 데이터 시각화도 중요한 역할을 한다. 여기서는 데이터 시각화의 역사에 대해 알아보기로 한다.


유럽은 15세기에서 18세기 중반까지 지구를 정복하느라 바빴다. 이 시기를 '대항해시대'라 한다. 이 시기의 유럽인들은 그 동안 항해했던 거리 수준을 훨씬 뛰어넘는 거리를 이동해야 했다. 예전에는 해안가를 돌면서 항해를 했기 때문에 등대나 봉화와 같은 지표를 사용해서 항해를 했지만, 이 무렵의 유럽인들은 하늘과 바다밖에 보이지 않는 먼바다로 진출하게 된다.


출처: Pixabay



이때 항해의 길잡이를 위한 도구로 사용한 것이 태양과 달, 별이다. 유럽인들은 이 천체들의 위치를 이용하여 현재의 시각과 지구상에서의 위치를 알아내어 무사히 항해를 마치려는 원대한 계획을 세운다. 이를 위해 방대한 관측 자료가 생산이 되었고, 다른 시간대와 다른 위치에서 관측된 결과를 통합하기 위한 수학들이 개발되는데, 이 중 중요한 것이 통계학이다.


이 시기 천문관측으로 두드러진 결과를 낸 사람은 티코 브라헤다. '인간 천문대'라고도 불렸던 티코 브라헤는 초신성을 발견하여 당시 교회가 불멸이라 했던 천구에도 유한함이 있다는 것을 보여주었으며, 그의 관측의 정확성을 믿었던 제자 케플러는 1600년대 초부터 애초에 예측했던 우주론을 수정하여 유명한 '케플러법칙'을 하나하나 발견해 나가게 된다. (케플러의 세 법칙에 대한 수학적인 증명은 뉴턴이 '프린키피아'에서 하게 된다.)


티코 브라헤와 케플러의 기념비(프라하) - Pixabay



유럽의 문화가 발전함에 따라 천문학 뿐 아니라 많은 다양한 분야에서 통계자료들이 생성되었는데, 1765년에 산소의 발견자이자 성직자, 철학자, 교육학자인 조지프 프리스틀리(Joseph Priestly)는 그의 책 A New Chart of History(1765)에서 학생들에게 역사적인 흐름에 대한 영감을 주기 위해 처음으로 연표를 도입한다.


https://commons.wikimedia.org/wiki/File:A_New_Chart_of_History.jpg Author: Joseph Priestley


막대 하나로 한 사람의 일생을 표현하는 이 방식으로 누가 동시대에 살았는지를 알 수 있고, 그 결과 역사가 어떻게 흘러갔는지를 알 수 있는 이 차트는 순식간에 대중화되어 많은 정보들이 이 형태를 따라 표현되었다.


이 연표에서 영감을 얻어 윌리엄 플레이페어(William Playfair)는 1786년에 발간된 Commercial and Political Atlas에 17개국에 대한 수입/수출현황을 다음과 같은 막대그래프를 통해 나타냈다.


https://commons.wikimedia.org/wiki/File:1786_Playfair_-_Exports_and_Imports_of_Scotland_to_and_from_different_parts_for_one_Year_from_Christmas_1780_to_Christmas_1781.jpg Author: William Playfair


선과 막대를 이용해서 자료를 표현하는 것을 생각한 것은 이전에도 오렘(Nicole Oresme)등에 의해 이루어졌지만, 이전의 것은 시간에 따른 위치의 변화 같은 연속적으로 변하는 양을 편의상 그림으로 나타냈던 것이었다. 플레이페어는 처음으로 숫자로만 이루어진, 연관성이 없어보이는 자료를 그림으로 표현해서 비교할 수 있도록 했다.


위에 언급한 저서에서 플레이페어는 다음과 같은 43개의 시간대차트(time-series chart)도 발표했다.


Playfair_TimeSeries-2.png https://commons.wikimedia.org/wiki/File:Playfair_TimeSeries-2.png Author: William Playfair


플레이페어는 자료의 비교에서는 차트가 표보다 훨씬 유리함을 강조했다. 그가 발명한 차트는 막대그래프 이외에도 선(line chart), 영역형(area chart), 원(pie chart) 차트가 있다. 위 시간대차트는 처음 구현된 선, 영역형 차트에 해당한다. 원 차트는 1801년 Statistical Breviary에서 처음 발표된다.


https://commons.wikimedia.org/wiki/File:Playfair-piechart.jpg Author: William Playfair



정보 시각화와 통계 그래픽스라는 영역을 개척한 사람은 플로렌스 나이팅게일(Florence Nightingale)이다.


https://en.wikipedia.org/wiki/Florence_Nightingale#/media/File:Florence_Nightingale_(H_Hering_NPG_x82368).jpg Photograph by Henry Hering



나이팅게일은 1858년 빅토리아 여왕에게 보내는 보고서 Notes on Matters Affecting the Health, Efficiency, and Hospital Administration of the British Army에서 나이팅게일 장미 다이어그램이라고도 불리는 원형 히스토그램을 발표했다.


https://commons.wikimedia.org/wiki/File:Nightingale-mortality.jpg Florence Nightingale(1820-1910)



이 차트에서 나이팅게일은 막을 수 있었던 사망자수를 파란 색으로, 중상에 의한 사망자수는 붉은 색으로, 기타 요인에 의한 사망자수는 검정색으로 표현했다. 그리고, 월별로 자료의 영역을 원형으로 나눠서 어느 시기에 사망자가 많이 나오는지를 쉽게 알아보게 했다. 전체 영역이 파란 색으로 표현이 되어 대부분의 사망자가 전쟁중의 중상 때문이 아니라 관리의 문제로 생겼다는 것을 강조하고 있다.


나이팅게일 차트의 성공으로 특별한 목적을 위한 차트들이 많이 생겨나서 요즘에는 그 종류도 어마어마하다. 위키피디아의 Chart항목을 보면 그 중 표본이 될 수 있는 것들이 분류되어 있다. 참고하기 바란다.


1978년 하버드 학생이었던 Daniel Bricklin은 스프레드시트라는 프로그램 개념을 생각해내어 Bob Frankston과 함께 VisiCalc라는 소프트웨어를 개발한다. 1983년 미치 카프(Mitch Kapor)는 Lotus 1-2-3를 발표했는데, 이때부터 컴퓨터에서도 차트를 그릴 수 있게 되었다. 마이크로소프트에서도 1984년 매킨토시용으로 Excel을 개발했는데, 이 제품은 그래픽 인터페이스를 사용하는 첫 번째 스프레드시트였다. 이런 소프트웨어의 개발에 힘입어, 데이터 시각화와 디자인은 급격히 대중화 되었다. 이 과정에서 차트는 고정된 그림이 아니라 스스로 움직이기도 하고 사용자의 특정 반응에 맞게 변하기도 하는 등 시각화 기술에서는 새로운 시도가 계속 이루어지고 있다.

+ Recent posts