- 과학향기 Story
- 스토리
스토리
[데이터 과학-1] 데이터는 무엇으로 이루어져 있나?
<KISTI의 과학향기> 제3419호 2019년 09월 09일데이터란? 데이터의 정의
요즈음 ‘빅데이터’라는 말이 흔하게 사용되고 있다. 그에 따라 ‘데이터’에 대한 관심도 많아지고 있다. 데이터(data)는 사실 외래어이다. 우리말로 표현할 마땅한 말이 없어서 영어의 발음을 따라 데이터라고 부르고 있다.
그런데, 많은 경우 데이터에 대한 정확한 의미를 모르고 사용하고 있는 것 같다. 나열된 숫자, 문자 코드의 집합, 모니터에 나타난 그래프 등 단순한 수치나 문자, 이미지 등을 데이터라고 생각하기 쉽다. 하지만, 단순한 숫자나 코드의 집합은 그 자체를 데이터라고 할 수 없다.
예컨대, ‘아폴로’라고 했을 때, 어떤 사람은 달 착륙선의 이름이라고 생각할 수도 있고, 어떤 사람은 고대 그리스의 신의 이름이라고 생각할 수도 있다. 이처럼 단순한 단어의 나열도 데이터라고 할 수 없다.
물질이 분자로 이루어져 있듯이 데이터도 기본 구성 요소가 있다. 물질은 그 성분에 따라서 구분되어지고, 형상에 의해서 특정한 물건이 된다. 예컨대 ‘플라스틱 의자’, ‘나무 의자’ 등등. 이처럼 데이터도 그 구성 요소에 따라서 의미가 달라지게 된다. 데이터는 기본적으로 데이터 요소(data element)와 이에 짝을 이루는 값(value)으로 구성된다.
데이터 요소와 값, 그리고 일관성
‘1.7미터’는 데이터가 아니다. 그냥 길이를 나타내는 숫자 값일 뿐이다. ‘철수의 키는 1.7미터’라고 표현되어야 비로소 데이터가 되는 것이다. 여기서 ‘철수의 키’가 데이터 요소이고, ‘1.7미터’가 값인 것이다. 이처럼 수치 값은 데이터 요소와 짝을 이루어야만 데이터가 되는 것이다.
또한, 분자가 원자로 이루어진 것처럼, 데이터 요소는 객체 클래스(object class)와 속성(attribute)으로 구성된다. 앞의 예에서 ‘철수의 키’라는 데이터 요소는 ‘사람(철수)’이라는 객체 클래스와 ‘키’라는 속성으로 구성된다.
사진 2. 데이터 요소와 값을 갖고 그것들이 일관적이면 데이터의 지위에 올라서며 비로소 연구의 대상이 된다. (출처: shutterstock)
이렇게 데이터의 구성 요소를 분석한 후에는 데이터의 일관성을 유지하는 것이 필요하다. 즉, 데이터 요소 이름이 동일해야 하고, 값의 단위가 동일해야만 한다.
만일 어떤 데이터베이스에서는 ‘철수의 키’라고 입력하고, 다른 데이터베이스에서는 ‘철수의 신장’이라고 입력했다면, 컴퓨터는 이것을 다른 데이터 요소로 인식할 수밖에 없다.
값의 경우도 ‘1.7미터’, ‘170센티미터’, ‘1700밀리미터’ 등과 같이 다르게 표현하면, 컴퓨터는 같은 값임에도 불구하고 다른 값으로 인식하게 된다.
이처럼 우리가 데이터를 다룰 때는 데이터의 구성 요소를 분석하여 이해해야 하고, 데이터의 일관성을 유지하는 것이 꼭 필요하다.
다음 시간에는 데이터를 활용하여 눈부신 성과를 내는 분야 중 가장 각광 받고 있는 인공지능을 다루면서 데이터 과학에 대해 더 자세히 설명하고자 한다.
글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터 센터장/일러스트: 유진성 작가

추천 콘텐츠
인기 스토리
-
- 저주파 자극기, 계속 써도 괜찮을까?
- 최근 목이나 어깨, 허리 등에 부착해 사용하는 저주파 자극기가 인기다. 물리치료실이 아니라 가정에서 손쉽게 쓸 수 있도록 작고 가벼울 뿐만 아니라 배터리 충전으로 반나절 넘게 작동한다. 게다가 가격도 저렴하다. SNS를 타고 효과가 좋다는 입소문을 퍼지면서 판매량도 늘고 있다. 저주파 자극기는 전기근육자극(Electrical Muscle Stimu...
-
- 우리 얼굴에 벌레가 산다? 모낭충의 비밀스러운 삶
- 썩 유쾌한 얘기는 아니지만, 우리 피부에는 세균 같은 각종 미생물 외에도 작은 진드기가 살고 있다. 바로 모낭충이다. 모낭충은 인간의 피부에 살면서 번식하고, 세대를 이어 간다. 태어난 지 며칠 되지 않은 신생아를 제외한 거의 모든 사람의 피부에 모낭충이 산다. 인간의 피부에 사는 모낭충은 크게 두 종류가 있다. 하나는 주로 얼굴의 모낭에 사는...
-
- [과학향기 Story] 차 한 잔에 중금속이 줄었다? 찻잎의 숨겨진 능력!
- 하루하루 바쁘게 사는 현대인들은 잠을 깨우기 위해 커피를 마신다. 이에 커피 소비량이 급격히 늘어나고 있지만, 아직 커피의 소비량은 ‘차(茶)’의 소비량을 뛰어넘지 못했다. 이는 많은 국가에서 차를 일상적으로 소비하는 문화가 자리 잡고 있기 때문이다. 또한 카페인 외에도 다양한 성분이 함유돼 있어, 건강을 목적으로 섭취하는 사람들도 다수 존재한다. ...
이 주제의 다른 글
- [과학향기 Story] 국내외 데이터 잇는 KREONET, 미래 과학기술을 부탁해!
- [과학향기 Story] 국제 협력을 통한 기술 표준화, 상생의 길을 열다
- [과학향기 Story] 인간의 뇌, 와이파이보다 느리다니?
- [과학향기 Story] 인공지능이 맛보는 위스키의 미래
- [과학향기 Story] 유전정보 담는 DNA… 빅데이터 · 우주 시대 이끌 새 저장장치로 각광
- [과학향기 Story] AI 전문가, 인간과 함께 미래 유망기술을 꼽다
- [과학향기 for Kids] 산타할아버지는 언제 한국에 도착할까?
- [과학향기 Story] 범람하는 가짜 정보 속, 정확한 정보를 얻고 싶다면? ‘사이언스온’으로!
- [과학향기 Story] 사이버 안보 위협하는 사이버 공격, 어떻게 대응할까?
- [과학향기 for Kids] 창과 방패의 전쟁, 사이버 공격 VS 사이버보안