스토리

[과학향기 Story] 과학기술 발전의 핵심, 연구데이터

<KISTI의 과학향기> 제3053호   2024년 04월 22일
우리가 매일 사용하는 스마트폰 앱, 맞춤형 인터넷 검색 결과, 유튜브에서 추천해주는 음악과 동영상 알고리즘부터 신약 개발이나 인공지능(AI) 기술 개발까지, 현대사회에서 우리가 누리고 있는 과학기술은 모두 끊임없는 연구를 통해 발전했다. 그런데 이러한 연구의 토대가 되는 것이 바로 연구데이터다.
 
연구데이터의 중요성
연구데이터는 말 그대로 과학기술 연구 과정에서 만들어진 모든 데이터를 말한다. 연구자들은 연구를 진행하면서 연구데이터를 생산하고 분석하며, 이를 통해 연구 결과를 도출하고 논문을 작성한다. 과학자들이 다양한 방법으로 연구를 진행하는 만큼, 다양한 종류의 연구데이터가 만들어진다. 예를 들어 가속기 등 실험 장비에서 생산되는 실험 데이터, 망원경이나 현미경, 인공위성 등 관측장비를 통해 생산되는 관측 데이터, 모델링을 통해 생산되는 시뮬레이션 데이터, 설문조사 등을 통해 생산되는 조사 데이터 등이 있다. 또 이런 원천 데이터를 통해 재생산된 파생 데이터, 평가를 거쳐 신뢰성이 공인된 참조 데이터도 연구데이터에 속한다. 데이터의 형태도 숫자, 텍스트, 동영상, 이미지, 소리 등 다양하다.
 
사진1
그림 1. 연구데이터는 과학기술 연구 과정에서 만들어진 모든 데이터를 말한다. ⓒshutterstock
 
그동안 과학자들은 관찰을 통한 경험(1세대), 모델링과 일반화를 통한 이론(2세대), 컴퓨터 시뮬레이션(3세대)을 거쳐, 수많은 장비로부터 쏟아져 나오는 방대한 양의 데이터를 이용해 연구를 진행하고 있다(4세대). 현재 과학자들이 연구에 활용하는 중심 도구가 데이터라는 뜻이다. 데이터 중심의 연구 패러다임에서 연구데이터의 중요성은 점점 더 커지고 있다.
 
이와 더불어 전 세계 국가들이 새로운 지식·가치 창출과 공유·확산을 위해 연구 성과와 연구 과정을 개방하는 ‘오픈 사이언스’ 정책을 적극적으로 추진하면서 연구데이터를 관리하는 것이 중요한 과제로 떠오르고 있다. 이외에도 연구데이터 관리는 여러 방면에서 중요하다. 만약 연구데이터를 제대로 관리하지 않아 데이터가 손실되거나 오염된다면, 다른 연구자들이 결과를 검증하거나 재현할 수 없어 연구 결과의 신뢰성이 떨어지고, 후속 연구 진행이 어려워질 수 있다. 따라서 연구데이터를 효과적으로 관리하고 활용하는 것은 연구 시간과 비용을 단축하고 생산성을 높이는 일이 될 수 있다. 연구 결과에 따르면, 전문적인 데이터 관리 서비스를 이용해 연구 시간의 1%를 절약하면 1년에 1000만 유로(약 147억 원)를 절약할 수 있다고 한다. 또 기존의 다양한 연구데이터를 재활용해 새로운 연구 아이디어를 발굴하고 혁신적인 발견을 이끌어낼 수도 있다.
 
국가연구데이터플랫폼(DataON)을 운영하는 KISTI
그런데 연구데이터는 연구자들의 노력에 대한 결과물이자 과학기술 발전에 필요한 중요한 자원임에도 연구자 본인이나 연구실 단위에서만 관리되고 있으며, 심지어는 연구가 끝나고 폐기되기도 한다. 따라서 이를 보존하고, 관리하려는 노력이 필요하다. 그래서 각 국가에서는 연구데이터를 체계적으로 관리하고 활용하는 일에 힘을 쏟고 있다. 미국, 영국, 호주 등 주요 선진국들은 공적 자금으로 수행된 연구 과제들에 대해 데이터 관리·공유·활용 정책을 펼치고 있으며, 국가 차원의 데이터 관리 및 공유를 위한 플랫폼 서비스를 지원하고 있다.
 
한국에서는 ‘국가 연구데이터 공유·활용 전략’에 따라 한국과학기술정보연구원(KISTI)이 2020년부터 국가연구데이터플랫폼(DataON)을 운영하고 있다. DataON은 연구데이터를 체계적으로 공유·관리하며, 검색·분석·활용을 지원한다. 이를 통해 연구자들끼리 데이터를 공유하고 공동 활용해 연구 효율성을 높이며 생산성 향상에 기여하는 것이 목표다.
 
사진2DataON 캡쳐
그림 2. KISTI에서 운영 중인 국가연구데이터플랫폼 DataON. 
 
DataON으로 다양한 형태의 연구데이터를 검색 및 다운로드할 수 있으며, 기관별 연구데이터를 연계하거나 메타데이터 등록으로 연구데이터를 수집할 수 있다. KISTI는 연구데이터 리포지터리(디지털화된 연구데이터를 저장·검색·등록하는 공간) 소프트웨어인 ‘NaRDA’를 23개 공공기관에 보급하고 있는데, 이 중 한국지질자원연구원, 한국표준과학연구원, 극지연구소, 한국해양과학기술원 등의 데이터를 DataON에 연계해 제공하고 있다. 또 유럽과 호주, 일본 등 해외 유수 연구데이터 플랫폼과도 협력해 이곳의 연구데이터도 활용할 수 있다. 이뿐만 아니라 대형 연구장비 분야 연구데이터(GSDC), AI 및 인공지능 분야 연구데이터(AIHub)와도 연계해 분야별 연구데이터를 수집하고 있다. 이를 통해 DataON은 현재 국내 데이터 약 3.3만 데이터셋, 해외 데이터 약 126만 메타 데이터셋을 보유하고 있다. 또 AI를 활용해 연구데이터를 분석하는 환경도 제공한다.
 
많은 연구자가 DataON을 활용해 연구를 진행하고 있다. 국립기상과학원은 DataON에 저장된 기상청 레이더 데이터를 활용해 딥러닝 기반의 구름 이동 예측 시스템을 개발했다. 또 DataON에서는 대전시의 교통 관련 데이터를 수집해, 실시간 도로별 교통상황, 차종별 도로 이동량 등을 분석하는 딥러닝 기반 도로영상 개체 인식 개발에 활용된 연구데이터를 공유하고 있다. 해외 기업에서 DataON을 활용한 사례도 있다. 미국의 실리콘밸리 기업 ‘Anatomage’는 DataON이 보유하고 있는 400GB의 인체 영상 데이터를 활용해 의대생 교육용 3D 기술 기반 가상해부 테이블을 개발했다.
 
과학기술의 엄청난 발전속도에 따라, 앞으로 연구데이터는 더욱더 폭발적으로 생산될 것이며, 그만큼 연구데이터를 관리하고 활용하는 일은 필수가 될 것이다. 그러므로 정부, 연구기관, 기업, 연구자 등 모든 사람이 연구데이터의 가치를 인식하고, 적극적으로 협력해 관리와 활용을 위한 환경을 조성할 필요가 있다. KISTI는 연구데이터에 대한 인식을 확산시키고 DataON의 활용도를 높이기 위해 2020년부터 매년 과학기술정보통신부와 함께 ‘연구데이터 분석활용 경진대회’를 열고 있다. 연구데이터가 과학기술 발전의 핵심 동력이며, 우리 삶의 질을 높이고 미래를 만들어가는 데 중요한 역할을 한다는 것을 모두가 인식하는 사회가 되길 바란다.
 
0419 연구데이터 250x250

 
 
글: 오혜진 동아에스앤씨 기자 / 일러스트: 이명헌 작가
 
평가하기
추천 콘텐츠
인기 스토리
쿠키를 지원하지 않는 브라우저이거나 브라우저 설정에서 쿠키를 사용하지 않음으로 설정되어 있는 경우 사이트의 일부 기능(로그인 등)을 이용할 수 없으니 유의해 주시기 바랍니다.
메일링 구독신청하기