스토리

[데이터 과학-1] 데이터는 무엇으로 이루어져 있나?

<KISTI의 과학향기> 제3419호   2019년 09월 09일
데이터란? 데이터의 정의
 
요즈음 ‘빅데이터’라는 말이 흔하게 사용되고 있다. 그에 따라 ‘데이터’에 대한 관심도 많아지고 있다. 데이터(data)는 사실 외래어이다. 우리말로 표현할 마땅한 말이 없어서 영어의 발음을 따라 데이터라고 부르고 있다.
 
그런데, 많은 경우 데이터에 대한 정확한 의미를 모르고 사용하고 있는 것 같다. 나열된 숫자, 문자 코드의 집합, 모니터에 나타난 그래프 등 단순한 수치나 문자, 이미지 등을 데이터라고 생각하기 쉽다. 하지만, 단순한 숫자나 코드의 집합은 그 자체를 데이터라고 할 수 없다.
 
예컨대, ‘아폴로’라고 했을 때, 어떤 사람은 달 착륙선의 이름이라고 생각할 수도 있고, 어떤 사람은 고대 그리스의 신의 이름이라고 생각할 수도 있다. 이처럼 단순한 단어의 나열도 데이터라고 할 수 없다.
 
물질이 분자로 이루어져 있듯이 데이터도 기본 구성 요소가 있다. 물질은 그 성분에 따라서 구분되어지고, 형상에 의해서 특정한 물건이 된다. 예컨대 ‘플라스틱 의자’, ‘나무 의자’ 등등. 이처럼 데이터도 그 구성 요소에 따라서 의미가 달라지게 된다. 데이터는 기본적으로 데이터 요소(data element)와 이에 짝을 이루는 값(value)으로 구성된다.
 
shutterstock163124255
사진 1. 데이터란 단지 숫자들을 모아 놓은 것은 아니다. 숫자가 '데이터'라는 의미를 얻으려면 꼭 필요한 요소가 있다. (출처: shutterstock)
 
데이터 요소와 값, 그리고 일관성
 
‘1.7미터’는 데이터가 아니다. 그냥 길이를 나타내는 숫자 값일 뿐이다. ‘철수의 키는 1.7미터’라고 표현되어야 비로소 데이터가 되는 것이다. 여기서 ‘철수의 키’가 데이터 요소이고, ‘1.7미터’가 값인 것이다. 이처럼 수치 값은 데이터 요소와 짝을 이루어야만 데이터가 되는 것이다.
 
또한, 분자가 원자로 이루어진 것처럼, 데이터 요소는 객체 클래스(object class)와 속성(attribute)으로 구성된다. 앞의 예에서 ‘철수의 키’라는 데이터 요소는 ‘사람(철수)’이라는 객체 클래스와 ‘키’라는 속성으로 구성된다.
 
shutterstock615459476
사진 2. 데이터 요소와 값을 갖고 그것들이 일관적이면 데이터의 지위에 올라서며 비로소 연구의 대상이 된다. (출처: shutterstock)
 
이렇게 데이터의 구성 요소를 분석한 후에는 데이터의 일관성을 유지하는 것이 필요하다. 즉, 데이터 요소 이름이 동일해야 하고, 값의 단위가 동일해야만 한다.
 
만일 어떤 데이터베이스에서는 ‘철수의 키’라고 입력하고, 다른 데이터베이스에서는 ‘철수의 신장’이라고 입력했다면, 컴퓨터는 이것을 다른 데이터 요소로 인식할 수밖에 없다.
 
값의 경우도 ‘1.7미터’, ‘170센티미터’, ‘1700밀리미터’ 등과 같이 다르게 표현하면, 컴퓨터는 같은 값임에도 불구하고 다른 값으로 인식하게 된다.
 
이처럼 우리가 데이터를 다룰 때는 데이터의 구성 요소를 분석하여 이해해야 하고, 데이터의 일관성을 유지하는 것이 꼭 필요하다.
 
다음 시간에는 데이터를 활용하여 눈부신 성과를 내는 분야 중 가장 각광 받고 있는 인공지능을 다루면서 데이터 과학에 대해 더 자세히 설명하고자 한다.
 
글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터 센터장/일러스트: 유진성 작가
 
평가하기
추천 콘텐츠
인기 스토리
메일링 구독신청하기