- 과학향기 Story
- 스토리
스토리
[데이터 과학-1] 데이터는 무엇으로 이루어져 있나?
<KISTI의 과학향기> 제3419호 2019년 09월 09일데이터란? 데이터의 정의
요즈음 ‘빅데이터’라는 말이 흔하게 사용되고 있다. 그에 따라 ‘데이터’에 대한 관심도 많아지고 있다. 데이터(data)는 사실 외래어이다. 우리말로 표현할 마땅한 말이 없어서 영어의 발음을 따라 데이터라고 부르고 있다.
그런데, 많은 경우 데이터에 대한 정확한 의미를 모르고 사용하고 있는 것 같다. 나열된 숫자, 문자 코드의 집합, 모니터에 나타난 그래프 등 단순한 수치나 문자, 이미지 등을 데이터라고 생각하기 쉽다. 하지만, 단순한 숫자나 코드의 집합은 그 자체를 데이터라고 할 수 없다.
예컨대, ‘아폴로’라고 했을 때, 어떤 사람은 달 착륙선의 이름이라고 생각할 수도 있고, 어떤 사람은 고대 그리스의 신의 이름이라고 생각할 수도 있다. 이처럼 단순한 단어의 나열도 데이터라고 할 수 없다.
물질이 분자로 이루어져 있듯이 데이터도 기본 구성 요소가 있다. 물질은 그 성분에 따라서 구분되어지고, 형상에 의해서 특정한 물건이 된다. 예컨대 ‘플라스틱 의자’, ‘나무 의자’ 등등. 이처럼 데이터도 그 구성 요소에 따라서 의미가 달라지게 된다. 데이터는 기본적으로 데이터 요소(data element)와 이에 짝을 이루는 값(value)으로 구성된다.
사진 1. 데이터란 단지 숫자들을 모아 놓은 것은 아니다. 숫자가 '데이터'라는 의미를 얻으려면 꼭 필요한 요소가 있다. (출처: shutterstock)
데이터 요소와 값, 그리고 일관성
‘1.7미터’는 데이터가 아니다. 그냥 길이를 나타내는 숫자 값일 뿐이다. ‘철수의 키는 1.7미터’라고 표현되어야 비로소 데이터가 되는 것이다. 여기서 ‘철수의 키’가 데이터 요소이고, ‘1.7미터’가 값인 것이다. 이처럼 수치 값은 데이터 요소와 짝을 이루어야만 데이터가 되는 것이다.
또한, 분자가 원자로 이루어진 것처럼, 데이터 요소는 객체 클래스(object class)와 속성(attribute)으로 구성된다. 앞의 예에서 ‘철수의 키’라는 데이터 요소는 ‘사람(철수)’이라는 객체 클래스와 ‘키’라는 속성으로 구성된다.
사진 2. 데이터 요소와 값을 갖고 그것들이 일관적이면 데이터의 지위에 올라서며 비로소 연구의 대상이 된다. (출처: shutterstock)
이렇게 데이터의 구성 요소를 분석한 후에는 데이터의 일관성을 유지하는 것이 필요하다. 즉, 데이터 요소 이름이 동일해야 하고, 값의 단위가 동일해야만 한다.
만일 어떤 데이터베이스에서는 ‘철수의 키’라고 입력하고, 다른 데이터베이스에서는 ‘철수의 신장’이라고 입력했다면, 컴퓨터는 이것을 다른 데이터 요소로 인식할 수밖에 없다.
값의 경우도 ‘1.7미터’, ‘170센티미터’, ‘1700밀리미터’ 등과 같이 다르게 표현하면, 컴퓨터는 같은 값임에도 불구하고 다른 값으로 인식하게 된다.
이처럼 우리가 데이터를 다룰 때는 데이터의 구성 요소를 분석하여 이해해야 하고, 데이터의 일관성을 유지하는 것이 꼭 필요하다.
다음 시간에는 데이터를 활용하여 눈부신 성과를 내는 분야 중 가장 각광 받고 있는 인공지능을 다루면서 데이터 과학에 대해 더 자세히 설명하고자 한다.
글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터 센터장/일러스트: 유진성 작가
추천 콘텐츠
인기 스토리
-
- 저주파 자극기, 계속 써도 괜찮을까?
- 최근 목이나 어깨, 허리 등에 부착해 사용하는 저주파 자극기가 인기다. 물리치료실이 아니라 가정에서 손쉽게 쓸 수 있도록 작고 가벼울 뿐만 아니라 배터리 충전으로 반나절 넘게 작동한다. 게다가 가격도 저렴하다. SNS를 타고 효과가 좋다는 입소문을 퍼지면서 판매량도 늘고 있다. 저주파 자극기는 전기근육자극(Electrical Muscle Stimu...
-
- 소리에는 소리로 맞선다, 액티브 노이즈 캔슬링
- 이어폰을 끼면 세상의 소음이 모두 멈추고 오직 음악과 나만 존재해 다른 세계가 되는 광고, 다들 본 적이 있을 것이다. 이는 주위의 소음을 차단한다는 이른바 ‘노이즈 캔슬링’ 효과를 강조한 것이다. 정말 노이즈 캔슬링은 세상을 고요하게 만들어 줄까? 그렇다면 그 원리는 무엇일까? 먼저 노이즈 캔슬링은 유명 회사에서 최근에 개발해 내놓은 혁신적인 기...
-
- 암 예방의 모든 것
- 이제 건강 검진철이 다가 왔다. 건강감진 하면 반드시 암 검진이 포함된다. 한국인뿐만 아니라 세계적으로도 암은 사망률을 높이는 무서운 질병이다. 질병 치료에서 무엇보다도 중요한 것은 미리 대비하는 것인데, 암과 관련 있는 주요 위험요소를 교정하거나 피하는 것만으로도 암의 40% 정도를 예방할 수 있다! 암의 위험요소로는 흡연, 비만, 채소와 과일 섭취...
이 주제의 다른 글
- [과학향기 for Kids] 엄청난 속도와 성능으로 세상을 바꾸는 슈퍼컴퓨터!
- [과학향기 Story] 소중한 데이터를 반영구적으로 저장할 수 있는 비결은?
- [과학향기 for Kids] 탐정처럼 데이터의 비밀을 밝혀낸다! 데이터 과학자
- [과학향기 Story] 한국의 과학 기술 발전과 함께한 국가 슈퍼컴퓨터의 역사
- [과학향기 Story] 과거부터 현재, 미래를 향한 슈퍼컴퓨터의 진화
- [과학향기 for Kids] 과학 지식을 함께 나눠 더 큰 세상을 만든다? ‘오픈 사이언스’
- [과학향기 for Kids] 지금은 빅데이터 시대! 빅데이터란 무엇일까?
- [과학향기 Story] 내 인생은 어떻게 흘러갈까? AI가 점쳐준다
- 2024년은 청룡의 해, 신화와 과학으로 용의 기원 찾아 삼만 리
- 북한이 쏘아올린 작은 ‘만리경-1호’ 궤도 진입 성공, 성능과 목적은?