빅 데이터 프로세싱

 

1. 개요
2. 상세
3. 활용
3.1. 한국
4. 관련 자격증
5. 빅 데이터 프로세싱 소프트웨어
6. 개인정보 침해 우려
7. 기타
8. 관련 문서


1. 개요


Big data processing
디지털 시대에서 폭증하는 '방대한 양의 데이터(big data)'를 관리하고 분석해서 유용한 정보로 사용하는 기술.

2. 상세


과거에는 알 수 없었던 매우 사소한 정보[1]까지도 디지털 정보로 기록되는 정보화 시대에서는 너무나도 정보의 양이 많아졌다. 거기에 더해 단순한 문자 데이터에서 벗어나 녹음, 사진, 동영상 등 데이터의 종류가 다양해지고 데이터의 용량 자체도 큰 폭으로 늘어났다. 이런 빅 데이터는 기존의 기술이나 도구로는 원활한 수집과 처리가 불가능할 정도로 성질이 달라졌으므로 빅 데이터에서 유용한 정보를 추합하거나 가치를 뽑아내기 위해서 고안된 기술이 바로 빅 데이터 프로세싱이다.
본래 빅 데이터 프로세싱이란 경제 가치를 창출해 낼 수 있는 설문조사 결과 모음으로 정의되며 빅 데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의되었다. 그러나 빅 데이터 기술이 대중에게 유명해진 지금은 경제 분야에 국한되어 쓰이지 않는 용어가 되었다. 관련 업체들이 난립하는 상황에서 대형 벤더에서는 솔루션 업체들을 인수하여 솔루션을 강화하고자 하는 실정이다. 사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행 중이다. 유엔에서도 이와 관련하여 빅 데이터를 국제개발 및 사회발전에 활용하기 위해 '''BD4D'''(Big Data for Development)라는 개념도 만들었다. 대표적인 것이 '''유엔 글로벌 펄스'''(UN Global Pulse).
빅 데이터의 특징을 규모 (대용량), 다양성, 속도, 정확성, 가치로 보아 3V, 4V, 5V 등으로 표현하기도 한다. 3V 문서로.
대용량 데이터를 가지고 있으면 자료 관리 기술과 자료 분석 기술이 필요하다. 자료 관리 기술은 Hadoop 등을 이용한다. 자료 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등을 이용한다.
편의상 줄여서 "빅데이터"라고도 부르기도 한다. "빅데이터"라고 쳐도 이 문서로 들어올 수 있다.

3. 활용


선수 평가 및 전략 전술 토대를 쌓는 가장 기본적인 기록 해석을 위해 빅 데이터 프로세싱의 개념을 도입했다. 특히 1년에 100경기 이상을 소화하며 빅데이터를 모으기 쉬운 프로야구에서 매우 보편화되었다.
존 스노우가 빅 데이터를 활용해 콜레라를 퇴치한 이후, 각종 전염병 전파과정의 기본적인 규명방법으로 사용되고 있다.
  • 추천 엔진[2]
'페이스북의 당신이 알 수도 있는 사람', '아마존닷컴 추천 상품' 등
  • 검색엔진의 검색어 분포도를 통한 데이터 추출
특정 사용자가 검색하는 검색어 패턴이나 클릭해서 본 적이 있는 각종 인터넷 광고들의 통계를 내서 정확도 순서로 맞춰 리스트를 출력해 주는데, 이것이 빅 데이터 응용의 기본 개념이다. 이 활용법이 서울대 의대 면접 제시문으로 등장했다. #
다수의 표본을 상대하는 도시학 연구에서도 필수적인 과정이다. 엄청난 숫자의 장소와 인구, 이동 동향 등을 한꺼번에 처리하는 빅데이터 프로세싱과 GIS를 통해 지리상에 나타내기도 한다.
  • 시내버스 노선 통계
이전에는 요금함을 일일이 뒤져서 액수 다 세고 그리고 어디서 내리는지도 알 수 없었으나 수도권 통합 요금 도입으로 인해 내릴 때 카드를 찍는 것이 일반화되어 승하차량을 좀 더 간편히 알 수 있게 되어 시내버스 노선을 새로 짤 경우 유용하게 사용될 수 있다.
  • 심리/동향 분석
SNS 포스팅이나 인터넷 광고 클릭 성향 등을 통한 맞춤형 정보 제공.
  • 정당 후보의 선거 유세
SNS속 빅 데이터의 분석으로 유권자 개개인의 특성과 성향을 분류하고 이에 따라 마이크로 타기팅이 가능. 실제로 2012 미국 대선에서 민주당 버락 오바마 당시 후보가 사용했던 선거 전략으로, 약 1억 건의 빅 데이터 분석을 통해 유권자의 정당 지지 성향, 관심 공약, 투표율 등을 고려하여 약 600종류의 이메일로 선거활동을 한 바 있다. 국내에서도 제21대 국회의원 선거에서 더민주 측이 활용했다고 하는데, 그래서인지는 모르겠으나 마침 더민주 측은 이 선거에서 사상 유례없는 대승을 거두었다. #
금융업계에서의 투자 시나리오 작성 보조
거래 데이터 및 평가도 기준으로 필터링 가능. 남아프리카의 보험사 Santam 사에서는 예측 분석과 위험 세분화 등을 통해 발견한 패턴으로 보험 사기를 좀 더 빠르게 적발하고, 보험 사기 확률이 낮은 건에 대한 처리 속도를 개선해 고객 만족도 역시 높였다.
빅 데이터 통합 카테고리로 통합된 온라인 업무 정리
  • 인간 게놈 분석을 통한 맞춤 의학의 실현
  • 인공지능 구현
대표적으로 알파고가 있었으며, 블리자드 엔터테인먼트도 자사의 게임 플레이를 취합해 사용함으로써 인공지능 구현 수준이 높다는 평을 받고 있다.
비대면 금융서비스인 만큼, 면식도 없고 정보량도 제한적인 채무자 신용등급 평가를 위해 다수의 금융서비스 이용자들의 빅데이터를 만들어 분석한다. 이 과정에서 동의없는 개인정보 유출문제를 피하기 위해 의도적으로 빅데이터화 하는 것.[3]

3.1. 한국


2015년 미국에서는 이미 380억 달러 (38조원) 규모의 시장이 형성되어 있다. 한국 시장의 150배다. 국내 시장은 데이터 수집 영역만 과포화되어 있으며, 그 대신 서비스 관리 플랫폼(SMP#s-7) 및 데이터 가공 영역, 데이터 통합 영역 등은 빈약하다.
'''그런데''' 문제는 국내 업계에서 별다른 성과 없이 빅 데이터 논의가 사그라드는 조짐이 보인다는 것이다. 이는 국내에서는 "CRM → 소프트웨어 시스템 구축 → 하둡 → 빅 데이터 → 사물인터넷인공지능 & 딥러닝"같은 식으로 '''돌아가면서 구호만 반복하고 있기 때문'''이라는 분석도 있다. 즉 데이터 활용의 현황을 파악하고 통찰을 얻지 못하고 있기 때문에 시간 낭비만 하고 있다는 게 데이터 업계의 푸념이다.

4. 관련 자격증


  • 사회조사분석사[4]
  • 빅데이터분석기사
  • 경영 빅데이터 분석사
  • ADP
  • SAS Base / Advanced

5. 빅 데이터 프로세싱 소프트웨어


[image]

6. 개인정보 침해 우려


분명한 것은 필요에 따라 익명으로 활동하거나 남아 있을 자유의 박탈은 편리의 증대나 경제적 부가가치의 생산으로 보상될 수 있는 문제가 아니라는 것이다. 평소 잘 인식하지 못하지만, 익명으로 숨어 있을 권리는 프라이버시의 문제를 넘어 민주주의의 근간이기도 하다. 우리는 개인보다 집단으로 저항한다. 그리고 군중 속에서 훨씬 더 잘 저항한다. 따라서 개인정보를 기업의 이윤추구와 정보권력의 통제 욕망에 무방비로 맡기는 것은 현대 산업사회에서 인간의 실존을 뿌리부터 흔드는 재앙이다.출처

몇 년 동안 대중을 몰래 감시해온 저희로서는 수많은 사람들이 자발적으로 자신의 거주지와 종교적 정치적 견해, 순서대로 정리한 친구 목록, 이메일 주소, 전화번호, 자신이 찍힌 수백 장의 사진, 현재 하고 있는 활동 정보를 공개하고 있다니 놀랍기 그지 없습니다. CIA로서는 꿈에 그리던 일이지요.

- 'The Onion' 미국의 풍자언론에서 CIA 부국장인 크리스토퍼 사르틴스키가 한 발언. 다만 이는 실존인물이 아니다. 영어 위키백과의 CIA역대 부국장 명단에는 이사람의 이름이 없다. 풍자 언론에서 풍자하기 위해 등장한 가상의 인물이다. #[5]

미국의 슈퍼마켓 체인점 타깃(TARGET)에 한 중년남성이 찾아와 항의했다. 딸에게 배송된 광고물에 임신부를 대상으로 한 상품만이 추천상품으로 실려 있었기 때문이다. 결혼도 하지않은 딸에게 임신을 권유하는 것도 아니고 광고지가 왜 이러냐고 항의하는 남성에게 직원은 사과를 했다. 하지만 다음날 그 남성은 슈퍼에 전화를 걸어 직원에게 사과했다. 여고생 딸이 임신 중이었던 것. 빅 데이터는 아버지도 모르는 딸의 임신을 기업이 먼저 알게 해준 것이다. 이 일화는 뉴욕타임즈의 기사#에 실려 빅 데이터의 유용성을 알게해주지만 위험성도 말해준다.
빅 데이터는 종종 조지 오웰의 빅 브라더와도 관련되어 언급되곤 한다. 혹시 혼동할까봐 구별하자면 빅 데이터는 데이터베이스 관련 기술명이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것이다.
빅 데이터를 이용해 사람들을 분석, 예상, 유도하는 기술은 나날히 발전하고 있다. 독재 정부의 손에 의해 국민을 통제하는 디스토피아에서 빅데이터는 효율적으로 사람을 감시하고 평가하고 유도해나가는 밑거름이 될 것이다. 지금도 "데이터 권력", "정보 권력" 이라 불리는 빅 데이터가 절대적 권력자의 손에 들어가고 국민의 정보를 지속적으로 얻는 순간 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도다. 딱히 독재자가 아니어도 민간기업이나 선거유세 때 개인정보를 구매하는 것은 이제 드문 일이 아니다. 우리나라 선거 때도 문자가 날아오고, 영국회사가 페이스북을 통해 5000만 명의 개인정보를 얻는다. 이를 어떻게 이용할지는 정보를 가진 이들에게 온전히 맡겨져 있다.
데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 '''사생활 침해'''나 '''개인정보 유출'''의 문제가 발생할 수 있다. Facebook/논란과 문제점에도 잘 적혀 있다. 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 역으로 다른 곳으로 정보가 흘러들어가 개인을 상세히 분석가능한 정보를 사기업이나 조직이 확보하고 이용할 가능성도 있다. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.
빅 데이터는 많은 데이터를 모으는 것이 우선적이고 이 때문에 많은 개인정보 사용 동의자들이 필요하다. 거대한 기업일수록 더 많은 개인정보를 얻을 수 있고, 이러한 데이터 격차는 줄어들지 않는다.즉 대기업과 선두주자가 압도적으로 유리하게 판이 만들어지는 것. '누가 어느 것을 좋아하니까 뭘 제공해야 한다는 것'은 온전히 개인정보에 기반하기에 그게 없는 후발주자들은 어떻게 할 수가 없다. 이는 데이터 독점에 가까운 형식이 되기 쉽다. 빅 데이터 규제 반대측이 데이터 우위로 인한 독점이 가속화된다고 할 정도로 이는 기업들에게 심각한 문제.
개인식별이 불가능(비식별화de-identification)한 개인정보를 수집하는 것에도 방심하면 안 된다. 여러 기업들에게서 얻은 성별, 나이, 국적, 선호하는 것들 등을 중심으로 특정인을 식별하는 것(재식별화re-identification)은 크게 어려운 일은 아니다. 특히 한국은 주민등록번호가 있기에 이런 조금 구멍난 정보들로 개인을 재구성하는 것에 무리가 없다는 지적을 받고 있다. 게다가 이미 유출된 개인정보가 엄청난 상황이니 기업들이 가진 개인정보가 아니어도 한사람의 상세한 개인정보를 짜맞추는 것은 쉬운 일이다.
CCTV 등 동의하지 않은 정보수집 장치를 통해 개인의 동선 등의 개인정보를 파악할 수도 있고 이에 대한 제약은 미진하다.
임태훈 교수의 저서《검색되지 않을 자유》에서는 빅 데이터로 인한 정형화된 인간의 만연에 대해 경계할 것을 요구한다. 정보 유출 같은 문제를 떠나 인간으로서의 존엄성과 같은 철학적인 부분까지도 재검토해볼 필요가 있을 것이다.

7. 기타


2017년 겨울부터 빅 데이터를 소재로 한 낚시가 유행하기 시작했다. 자세한 내용은 빅데이터 드립 문서로.

8. 관련 문서



[1] 각 개인의 GPS를 통한 이동 경로, 방문한 사업장이나 외식 기록, 인터넷 검색 기록 등.[2] Recommend system or engine,1992 Goldberg.[3] 예를 들어, 돈을 빌리기위해 신용정보관련 서류심사과정에서 키로그를 분석하고 경향성을 판단하는 것. 대출 신청과정에서 보여주는 금융사의 표준약관을 얼마나 꼼꼼히 읽느냐, 체크박스 누르는 시간이 몇초 걸리냐, 입력과정에서 얼마나 컴퓨터 사용을 잘 하냐(이를 테면 Tab키 활용), SNS가 있다면 SNS의 친구 숫자와 그 내용,질, 평판등을 특정하지 않고 돌려봐서 그 분석기준에 따라 신용도를 평가하는 것.[4] 조사방법론과 기초통계에 대한 지식, 데이터 분석법을 습득할 수는 있으나 사용되는 프로그램인 SPSS가 빅데이터에 적합한 프로그램은 아니다.[5] 덤으로 이 발언은 훗날 EBS의 특집 다큐멘터리인 "위 약관에 동의합니다"에서도 인용되었다. #