- 과학향기 Story
- 스토리
스토리
[데이터 과학-1] 데이터는 무엇으로 이루어져 있나?
<KISTI의 과학향기> 제3419호 2019년 09월 09일데이터란? 데이터의 정의
요즈음 ‘빅데이터’라는 말이 흔하게 사용되고 있다. 그에 따라 ‘데이터’에 대한 관심도 많아지고 있다. 데이터(data)는 사실 외래어이다. 우리말로 표현할 마땅한 말이 없어서 영어의 발음을 따라 데이터라고 부르고 있다.
그런데, 많은 경우 데이터에 대한 정확한 의미를 모르고 사용하고 있는 것 같다. 나열된 숫자, 문자 코드의 집합, 모니터에 나타난 그래프 등 단순한 수치나 문자, 이미지 등을 데이터라고 생각하기 쉽다. 하지만, 단순한 숫자나 코드의 집합은 그 자체를 데이터라고 할 수 없다.
예컨대, ‘아폴로’라고 했을 때, 어떤 사람은 달 착륙선의 이름이라고 생각할 수도 있고, 어떤 사람은 고대 그리스의 신의 이름이라고 생각할 수도 있다. 이처럼 단순한 단어의 나열도 데이터라고 할 수 없다.
물질이 분자로 이루어져 있듯이 데이터도 기본 구성 요소가 있다. 물질은 그 성분에 따라서 구분되어지고, 형상에 의해서 특정한 물건이 된다. 예컨대 ‘플라스틱 의자’, ‘나무 의자’ 등등. 이처럼 데이터도 그 구성 요소에 따라서 의미가 달라지게 된다. 데이터는 기본적으로 데이터 요소(data element)와 이에 짝을 이루는 값(value)으로 구성된다.
사진 1. 데이터란 단지 숫자들을 모아 놓은 것은 아니다. 숫자가 '데이터'라는 의미를 얻으려면 꼭 필요한 요소가 있다. (출처: shutterstock)
데이터 요소와 값, 그리고 일관성
‘1.7미터’는 데이터가 아니다. 그냥 길이를 나타내는 숫자 값일 뿐이다. ‘철수의 키는 1.7미터’라고 표현되어야 비로소 데이터가 되는 것이다. 여기서 ‘철수의 키’가 데이터 요소이고, ‘1.7미터’가 값인 것이다. 이처럼 수치 값은 데이터 요소와 짝을 이루어야만 데이터가 되는 것이다.
또한, 분자가 원자로 이루어진 것처럼, 데이터 요소는 객체 클래스(object class)와 속성(attribute)으로 구성된다. 앞의 예에서 ‘철수의 키’라는 데이터 요소는 ‘사람(철수)’이라는 객체 클래스와 ‘키’라는 속성으로 구성된다.
사진 2. 데이터 요소와 값을 갖고 그것들이 일관적이면 데이터의 지위에 올라서며 비로소 연구의 대상이 된다. (출처: shutterstock)
이렇게 데이터의 구성 요소를 분석한 후에는 데이터의 일관성을 유지하는 것이 필요하다. 즉, 데이터 요소 이름이 동일해야 하고, 값의 단위가 동일해야만 한다.
만일 어떤 데이터베이스에서는 ‘철수의 키’라고 입력하고, 다른 데이터베이스에서는 ‘철수의 신장’이라고 입력했다면, 컴퓨터는 이것을 다른 데이터 요소로 인식할 수밖에 없다.
값의 경우도 ‘1.7미터’, ‘170센티미터’, ‘1700밀리미터’ 등과 같이 다르게 표현하면, 컴퓨터는 같은 값임에도 불구하고 다른 값으로 인식하게 된다.
이처럼 우리가 데이터를 다룰 때는 데이터의 구성 요소를 분석하여 이해해야 하고, 데이터의 일관성을 유지하는 것이 꼭 필요하다.
다음 시간에는 데이터를 활용하여 눈부신 성과를 내는 분야 중 가장 각광 받고 있는 인공지능을 다루면서 데이터 과학에 대해 더 자세히 설명하고자 한다.
글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터 센터장/일러스트: 유진성 작가
추천 콘텐츠
인기 스토리
-
- [과학향기 Story] 과학기술 발전의 핵심, 연구데이터
- 우리가 매일 사용하는 스마트폰 앱, 맞춤형 인터넷 검색 결과, 유튜브에서 추천해주는 음악과 동영상 알고리즘부터 신약 개발이나 인공지능(AI) 기술 개발까지, 현대사회에서 우리가 누리고 있는 과학기술은 모두 끊임없는 연구를 통해 발전했다. 그런데 이러한 연구의 토대가 되는 것이 바로 연구데이터다. 연구데이터의 중요성 연구데이터는 말 그대로 과학기술 ...
-
- [과학향기 Story] 인간을 지배하는 영장류, 현실 영장류의 사회성은 어느 정도일까?
- 어린 시절 ‘주말의 명화’를 즐겨 본 사람이라면 1970년대를 전후로 영화화된 ‘혹성탈출’ 시리즈를 기억할 것이다. 핵으로 멸망한 지구에서 진화한 유인원이 인간의 자리를 대신한다는 스토리는 40년 뒤 약간의 설정을 달리하여 리부트되었다. 오는 8일 개봉하는 <혹성탈출: 새로운 시대>는 7년 만에 찾아온 혹성탈출 리부트 시리즈 신작이다. 리부트 시리...
-
- [과학향기 Story] 스포츠에 불어든 AI 바람
- 인공지능(AI)이 우리 삶 깊숙이 들어오면서 기대와 흥분, 때로는 걱정으로 들썩이는 분야가 있다. 바로 스포츠다. 스포츠에서는 전략이나 선수 컨디션의 아주 미세한 개선이 승부가 결정할 때가 많다. 그동안은 그런 세심한 작업을 여러 사람이 머리를 맞대고 해 왔는데 알다시피 사람은 완벽하지 않다. 데이터 해석을 잘못하면 최선의 전략이라고 생각했던 게 사실...
이 주제의 다른 글
- [과학향기 for Kids] “어떤 일이든 맡겨줘!” 마법 같은 생성형 AI의 비밀은?
- [과학향기 for Kids] 인공지능(AI)이 똑똑해진 비결은? ‘기계학습’
- [과학향기 for Kids] 아침에 빵 먹으면 못생겨 보인다?
- [과학향기 Story] ‘꿈의 컴퓨터’ 양자컴퓨터, 어디까지 왔을까?
- [과학향기 Story] 과학기술 발전의 핵심, 연구데이터
- [과학향기 for Kids] 전 세계 연결망, 해저케이블을 위협하는 범인은?
- [과학향기 for Kids] 놀라운 힘을 가진 미래 컴퓨터, 양자컴퓨터
- [과학향기 for Kids] 한국의 슈퍼컴퓨터, 어디까지 왔니?
- [과학향기 Story] 스포츠에 불어든 AI 바람
- [과학향기 for Kids] 엄청난 속도와 성능으로 세상을 바꾸는 슈퍼컴퓨터!