데이터
1. 일반적인 뜻
Data[1][2][5]
- 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료.
- 관찰이나 실험, 조사로 얻은 사실이나 자료.
- 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 자료.
하지만 이는 대량의 자료점을 취급하는 통계학에서의 이야기이고, 한 개인의 수준에서는 자료 = 정보인 경우가 대부분이기 때문에(예를 들어 한 개인의 체중, 신장, 년수입 등등) "개인자료"(personal data)를 "개인정보"(personal information)와 동일하게 취급하는 경우도 많다. 일례로 우리나라에는 개인정보 보호법은 있어도 개인자료 보호법은 없다.(영어로는 Personal Data Protection Act.)
2. 연구방법론에서의 용어
연구에 직간접적으로 이용되는 일체의 자료. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한, 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.
자료는 크게 1차 자료와 2차 자료로 나누어볼 수 있다. '''1차 자료'''란 연구자가 연구문제의 해결을 목적으로 현장조사(field investigation)를 통해 직접 수집한 자료를 의미한다. 장점으로는 직접적인 신뢰도와 타당도 평가가 가능하다는 것이 있지만, 단점으로는 시간과 예산이 많이 소요된다. '''2차 자료'''란 현재 수행중인 연구목적을 위해 수집된 것은 아니지만, 어쨌든 현재 수행중인 연구목적에 도움을 줄 수 있는 모든 자료를 의미한다. 기존에 존재하는 자료이고 타인의 1차 자료에 속하기 때문에 아무래도 더 저렴하고 신속하게 수집하는 것이 장점이다. 그러나 2차 자료는 현재 수행중인 연구목적과 부합하는지, 측정과 그 척도는 적절한지, 정의는 호환이 가능한지 일일이 따져봐야 할 필요가 있다.
심리학계-특히 성격심리학-에서 자료의 종류는 흔히 4가지로 구분되는데, 약간의 언어유희를 담아 '''LOTS'''라고도 부른다. 이를 각각 설명하자면 다음과 같다.
- L-자료: 생애 데이터. 한 대상의 통사적 정보를 알 수 있는 자료이다. 특히 특정 개인을 대상으로 한 임상 장면에서 많이 쓰인다. 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회 등등이 이에 해당한다. 객관화된 자료이지만, 이용에 한계가 존재한다.
- O-자료: 관찰 데이터. 숙련된 관찰자 혹은 대상을 잘 아는 관계자, 친지 등이 제공하는 자료이다. 면접법, 참여관찰법 등을 통해 얻을 수 있다. 주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속한다.
- T-자료: 검사 데이터. 실험적 절차를 거치거나 표준화된 검사를 통해 얻어진 데이터이다. 대중매체에서 과학자 인물들이 손에 들고 있는 도표들도 대부분 이것. 가장 객관적이고 질 좋은 자료이지만, 현실적으로 접해보기는 그다지 쉽지 않다. 게다가 자료를 확보하는 과정에서의 연구윤리 문제도 개입된다.
- S-자료: 자기보고 데이터. 어떤 대상에 대한 정보를 얻을 때 그 대상에게 직접 물어보아 얻은 자료이다. 당연히 사람을 대상으로 하므로, 그 분야는 심리학이나 사회학 등에 한정될 수밖에 없다. 그러나 매우 흔하게 접할 수 있는 자료로, 흔한 설문조사나 여론조사 등을 통해 얻어진다. 이따금 사회과학 분야의 학부 지인들이 돌리곤 하는 구글독스 설문지도 S-자료를 얻기 위한 방편이다. "사람은 자신이 자신을 제일 잘 안다" 는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있다.
현대에 들어서 기술이 발전하면서, 더 이상 기존의 분류법으로 설명하기 힘든 자료들이 속속 나타나기 시작했다. 대표적인 것으로는 뇌파(EEG) 검사결과 자료 같은 것이 있다. 그리고 같은 대상을 연구하더라도 자료의 종류에 따라 결과가 서로 다르게 나오기도 한다.[6]
3. 컴퓨터 관련 용어
컴퓨터공학[7] 에서가 아닌, 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.
보다 학술적이면서 포괄적인 의미로 컴퓨터에 의해 특정한 방법으로 처리되거나 해석될 목적으로 순서를 가지고 나열된 기호(Symbol)가 모여있는 것을 뜻한다.
데이터는 수치화된 크기/규모(Magnitude), 개수(Quantity), 문자, 또는 컴퓨터에 의해 해석되어 처리되거나 다른 기계, 다른 컴퓨터를 제어할 수 있는 명령어를 나타내는 심볼 등을 뜻하며, 보통 자기 저장매체(플로피디스크, 하드디스크, 카세트테이프, 오픈릴 테이프, DAT 등), 메모리 저장매체(RAM, ROM, 플래시 메모리, SSD 등), 광학 저장매체(CD, DVD, 블루레이, OMR, OCR, 천공 카드 등), 기계적 저장매체 등에 저장되며 전기 신호의 형태로 전송될 수 있다. Datum 은 특정 장소에 저장된 단일 값을 뜻한다.
디지털 데이터에서는, 디지털 시스템이기 때문에 당연히 최소 정보 구분 단위가 비트(Bit)이지만, 실제로는 효율성과 편의성을 위해 입출력을 위한 최소 크기는 비트 8개의 모임인 바이트(Byte)나, CPU가 한 번에 처리할 수 있는 워드(Word) 단위가 된다.
프로그램은 컴퓨터가 해석하여 실행할 수 있는 명령을 나타내는 심볼 데이터의 모임이다. 근본적으로 컴퓨터라는 기계는 데이터의 형태로 표현된 일련의 명령어에 따라 동작하도록 설계되었다. (여기에 혁혁한 공을 세운 사람이 바로 앨런 튜링이다.) 사실상 프로그램에서 실행이 되는 명령어(= 코드)와 직접 실행이 되지 않는 부분이 저장되는 형태나 방식이 완전히 동일하다. 따라서 다른 기계나 컴퓨터를 제어할 때, 정보를 통신하는 방법이 하드웨어적으로 한 가지만 존재해도, 직접 실행되는 부분과 부가적인 부분이 동일하게 표현되기 때문에, 이론상으로는 문제 없이 이것들을 제어하는 프로그램을 만들 수 있다.
프로그래밍에서 컴퓨터가 실행하는 명령어 부분을 Text 라고 부르고, 프로그램이 참조하는 숫자 값, 이진 값, 또는 문자 값, 변수 등이 저장되는 부분을 Data 라고 구분하기도 한다. 어셈블리어나 유닉스에서 이와 같이 구분하는 것을 볼 수 있다.
사실 데이터와 데이터가 아닌 것의 경계는 명확하지 않다. Python 같은 인터프리터를 예로 들면, 사용자가 직접 입력하거나 디스크에 미리 입력된 일련의 Python 명령어 모음은 인터프리터 자체의 입장에서는 입력받은 데이터이다. 확장자가 *.py 인 디스크에 저장된 Python 프로그램 파일은 그 자체로 디스크에 기록된, 텍스트로 이루어진 데이터 파일이다.
이러한 모호함은 프로그램을 데이터로 취급하는 메타 프로그래밍에서도 발견된다. 컴파일러를 사용하는 많은 언어에서 컴파일 시점에 코드를 데이터로 취급하여 최적화를 수행하고, 인터프리터로 동작하는 LISP은 아예 "Code is data, data is code." 라는 기본 설계 이념이 존재하며, 소스 코드 수준에서부터 코드와 데이터가 동일하게 표기된다. 여기에 코드를 데이터로 취급하는 매크로라는 강력한 메타 프로그래밍 도구를 제공한다. 그 밖에 프로그래밍에서 사용하는 링커, 디버거 등도 프로그램 코드를 데이터로 취급한다.
공학자나 개발자가 아닌 일반 컴퓨터 사용자가 사용하는 프로그램 중에 데이터와 데이터가 아닌 것의 경계가 모호한 대표적인 프로그램으로 컴퓨터 바이러스를 진단하여 치료하는 안티 바이러스가 있다. 안티 바이러스의 입장에서는 자기 자신을 포함한 모든 다른 프로그램이 진단 대상이 되는 데이터이다. 심지어 메모리 안에 로딩되어 실행중인 프로그램도 안티 바이러스 한테는 데이터로 취급된다.
4. 경영학 용어
2010년대 이후 각광받고 있는 개념으로, 이 시대를 업계에서는 데이터의 시대라고 부르기도 하며, 일부는 심지어 '''산업혁명 4.0'''이라고 부르기도 한다.
2012년경 독일 제조업 분야에서 시작됐다는 이야기가 있으며, 유명 회사들이 데이터를 갖고 있는 회사들부터 우선적으로 인수합병을 추진하면서 데이터 대세론에 힘을 실어주었다. 국내에서도 이 기세를 타서 여러 회사들이 데이터를 취급하기 시작하는 중.
데이터유통 분야의 경우 우선적으로 '''데이터 팩토리'''(data factory)라는 새로운 개념의 회사들이 생겨났는데, 다른 말로는 '''데이터 뷰로'''(data bureau)라고 불리기도 한다. 이들은 분산되어 있지만 가치 있는 데이터들을 수집, 저장, 가공, 통합하여 재판매하는 일을 주로 하고 있다. 특히 엡실론(Epsilon), 액시엄(Acxiom), 이퀴팩스(Equifax) 같은 회사들이 이걸로 유명하며, 국내에도 KCB, NICE , SK 지오비전, 네이버 등이 데이터 팩토리로 불릴 수 있다는 듯. 이런 쪽으로 발전이 빠른 미국에서는 이미 웹페이지 열람 내역에 대해서 그 열람의 고의성이나 필요성까지도 추정 가능하다고 한다.
금융 분야에서는 '''데이터 생태계'''라 하여 콜렉터, 브로커, 유저로 나누어지는 순환구조를 가정하고 있다. 여기서 데이터는 판매자가 과거 판매했던 데이터가 이후 다시 특정 "사인"(sign)을 달고 판매자에게 되돌아오는 식으로 이루어지는데, 데이터 소비자는 구입한 데이터에 자신의 내부 데이터를 융합시켜서 활용하고, 그러한 경제활동을 통해서 데이터 판매자에게 가치 있는 데이터가 다시 전달되는 형태이다.
이는 소위 '''O2O 시장'''(Online-to-Offline market) 또는 온보딩(onboarding)의 가능성을 암시하고 있는데, 예컨대 "A씨가 모 판매점에 방문했다" 는 오프라인 정보와 "A씨가 해당 판매점의 온라인 사이트에 방문했다" 는 온라인 정보를 연결하는 기술이 가능해진다는 것이다. 이것이 전제되는 시장은 오프라인에서 테스트를 직접 해 보고 '''동일인의 자격으로''' 온라인에서 구매하는 등의 경제활동이 가능하다.
물론 데이터 이용에 관한 윤리적 문제도 불거지고 있다. 대표적으로 '''개인정보'''의 관리 문제가 항상 거론되는데, 미국에서는 일명 "얼굴 없는 회사"(faceless company)라고 불리는 문제이다. 실제로 2012년에 미국 국회청문회에서 이 문제를 놓고 논쟁을 벌였으며, 마케팅용 개인정보를 수집하거나, 직원 고용 시 "background check" 정도의 목적까지만 데이터 이용을 허용했다고.
행정 분야에서도 데이터의 중요성이 커지면서, 국내의 경우 예컨대 '''공공데이터 공개'''의 필요성에 따라 개설된 공공데이터포털 같은 사례가 있다.
5. 데이터 통신, 잔여량, 요금 (스마트폰 데이터)
무선통신에서 패킷 통신을 서킷 통신과 구분하여 언급할 때, '데이터(데이터 통신)'와 '통화'라고 부르면서 사용 빈도가 높아진 용어/용도이다. 일상에서 기술적 용어는 쓸 일이 없겠지만, 통신료 과금문제와 직결되기 때문에 널리 쓰이게 된 것이다. 이에 따라, 스마트폰으로 인터넷을 이용할 때 나가는 요금을 간단히 데이터라고 말하는 경우가 많다. 이 경우 보통 '''데이터가 나간다'''고 표현한다.
다운로드, 게임[8] , 유튜브, 동기화 등을 하면 데이터 소모량이 매우 많아지므로 이런 것들은 와이파이로 하는 게 좋다.
여담이지만 스마트폰으로 문서를 볼 때 문서가 전부 로딩되었다면 다음 문서로 가기 전 까지 데이터를 꺼도 현재 문서는 문제없이 읽을 수 있다.
우리가 흔히 사용하는 것은 데이터라고 하지만, 이 데이터를 전송하는 기술 종류는 매우 다양한 편이다. 통신사가 수시로 광고하여 많이 들어봄직한 세부 기술 내용은 아래의 문서들을 참조.
6. 스타 트렉의 등장인물
7. 관련 문서
[1] '데이터' 혹은 '데이타' 등으로 불리거나 쓰이는데, 옛날에는 '데이타'로 많이 표기했고 외래어 표기법으로는 '데이타'가 맞으나, 현재는 '데이터'가 대세. 국립국어원의 표준국어대사전에는 데이'''터'''로 표기했다. 원칙적으로는 소다(soda)와 같이 어말의 슈와(ə)에 대응하는 스펠링이 a인 경우에는 스펠링을 반영해 'ㅏ'로 표기해야 하나, 이 경우는 원어의 발음에 좀더 가깝다고 판단하여 중모음 ㅓ로 옮긴 듯.[2] 이는 현행 외래어 표기법의 수많은 모순점 중 하나다.[3] 전자는 음절구분을 da.ta가 아닌 dat.a로 해서, 후자는 '대륙식' 라틴어 발음이나 과잉수정된 표기가 언중들 사이에 퍼지면서 생긴 현상인 듯하다.[4] 영어를 배울 때 특수한 복수형의 예시로 종종 언급된다.[5] 영어권에서 주요 사전에 실리는 발음은 /ˈdeɪtə/(데이터)이며, 이렇게 읽는 게 라틴어의 영어식 발음 규칙에도 맞지만, 21세기 들어와서는 /ˈdætə/(대터) 또는 /ˈdɑːtə/(다터)라고 읽는 경우가 늘어나고 있다. 구글에 data pronunciation을 검색해봐도 dayta가 맞는가 dahta가 맞는가 질문글이 많이 올라와 있다[3] . 라틴어 단어 Datum의 복수형인 Data에서 유래했으며 라틴어에서 Datum의 뜻은 '주어진 것'이며, 영어권에서는 "present/gift, that which is given, debit"으로 풀이한다. 현재에서도 기본적으로는 복수형 취급을 하나[4] 가끔 하나의 고유명사화가 되어서 단수로 취급하는 경우도 있다.[6] 가장 대표적인 것이 바로 S-자료와 T-자료의 불일치이다. 예를 들어, 많은 노인들은 대체로 자신이 성공적인 노년기를 보내고 있다고 굳게 믿지만, 막상 실험이나 검사를 해 보면 안타까울 정도로 여건이 좋지 않은 분들이 굉장히 많다. 이에 대해서는 성공적 노화 문서도 함께 참고.[7] 전산학 용어와 혼용[8] 플레이 시에는 데이터를 많이 먹지는 않겠지만 게임 데이터 다운로드 시에 데이터 사용량이 많아진다.