빅 데이터
빅 데이터
  • 김인수
  • 승인 2012.10.04 16:09
  • 댓글 0
이 기사를 공유합니다

빅 데이터(Big data)란 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석의 역량을 넘어서는 데이터 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 다양한 종류의 대규모 데이터의 생성·수집·분석·표현을 그 특징으로 하는 빅 데이터 기술의 발전은, 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고, 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공·관리·분석 가능케 하며, 과거에는 불가능했던 기술을 실현하기도 한다. 이같이 빅 데이터는 정치·사회·경제·문화·과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공하며, 그 중요성 또한 부각되고 있다. 세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술을 선정하였으며, 우리나라 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정하는 등, 최근 세계는 빅 데이터를 주목하고 있다.

기존 빅 데이터의 개념은 단순히 데이터의 양이 많은 것을 의미했다면, 최근의 일반적인 빅 데이터의 개념은 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터세트를 의미한다. 빅 데이터의 정의에 합의된 바는 없지만, 맥킨지는 데이터 베이스의 규모와 업무수행에 초점을 맞춰, 빅 데이터를 다음과 같이 정의하였다. 네트워크 서비스로 대표되는 미디어의 성장과, 최근 스마트 폰으로 대변되는 모바일 장치의 확산이 결합되어, 일상 속에서 다양한 종류의 대규모 데이터가 급속히 생성, 유통, 저장되고 있다. 또한 정보를 감지하는 센서 장비의 이용 확대와 이러한 정보를 수집하는 클라우드 컴퓨팅 기술의 확산은, 물류의 이동 및 재고의 변화뿐만이 아닌 개별 소비자들의 개인정보 및 소비행태와 같은 모든 일상에 대한 디지털 기록을 가능케 하고 있다. 기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여, 다양한 종류의 대규모 데이터 처리, 분석 및 활용 기술을 필요로 하고 있다. 대량의 다양한 데이터 생산 기술의 진보와, 이에 필요한 데이터 저장·관리·분석 기술의 발전 속에서 빅 데이터가 출현하게 된다. 빅 데이터는 TB(테라바이트)단위의 데이터양으로 정의되거나 데이터 수집 및 분석에 장기적인 시간을 요하므로, 데이터양의 증가를 그 특징으로 하는 것이 명확해 보인다. 그러나 단순한 데이터양의 증가를 넘어서서, 빅 데이터는 크게 데이터 양(volume), 데이터 속도(velocity), 그리고 데이터 다양성(variety) 등 세 가지 요소의 복합적인 변화를 그 특징으로 한다.

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석·활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 선거캠프는 인종·종교·나이·가구형태·소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서, 과거 투표 여부·구독하는 잡지·마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어, 유권자 데이터베이스를 온라인으로 통합 관리하는 시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 해나갔다. 이를 바탕으로 유권자 지도를 작성한 뒤, 유권자 맞춤형 선거 전략을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다고 한다.

실제로 우리나라에서도 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재·보궐선거에서 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등 네트워크 활용에 주목했다. 이 가운데 여론 조사 기관들은, 기존 여론조사 방식으로 예측한 2010년 제 5회 지방 선거 및 2011년 재·보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자, 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했다. 그러나 SNS 이용자의 대다수가 수도권·20~30대에 쏠려 있기에 빅 데이터를 이용한 대한민국 제19대 총선에 대한 SNS 분석은 수도권으로 한정되어 일치하는 한계를 드러내기도 했다.

최근 생물학에서 DNA·RNA·단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고, 이에 따라 이 빅 데이터를 활용한 생명의 이해에 관한 논의가 진행되고 있다. 의료분야에서도 빅 데이터를 활용하면 의료 예산의 약 8%에 해당하는 규모의 직·간접적인 비용 절감 효과를 보일 것으로 전망된다. 특히 임상분야에서는 의료기관 별 진료방법·효능·비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고, 환자 데이터의 온라인으로 의료협회 간 데이터 공유로 치료 효과를 제고하며, 공중보건 영역에선 전국의 의료데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.

<이학박사 김인수, 호남수학회장, 대한수학회 부회장, 전북대학교 자연과학대학 수학과>


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.