- 과학향기 Story
- 스토리
스토리
구글도 반해버린 ‘유진 가필드’식 검색
<KISTI의 과학향기> 제1150호 2010년 07월 19일
‘구글신’에게 물어보라. 세계인이 가장 많이 애용하는 검색사이트, ‘구글(www.google.com)’에서 검색하라는 말이다. 마치 ‘신’처럼 콕 찍어 필요한 정보를 제공해주기에 구글신(구글+신)이라는 별명이 붙었다. 그런데 구글 검색엔진은 어떻게 족집게처럼 원하는 정보를 알아내는 것일까? 그 해답은 질의어의 성분을 분석해 유명 사이트에 링크된 정도를 추천하는 방식에 있다. 그리고 이 방식의 시작에는 유진 가필드(1925~현재)가 있다.
1940년대 미국 컬럼비아대 화학과를 졸업한 가필드는 과학자로서 청운의 꿈을 품고 화학실험에 몰두했다. 그러나 몇 차례 폭발 사고를 경험하면서 화학 연구가 자신의 적성에 맞지 않는다고 여겼다.
때마침 미국 존스홉킨스대 의학도서관에서 발주한 ‘의료 논문 최신 리스트’를 만드는 프로젝트에 참여했다가 인생이 바뀌었다. 문헌정보학으로 진로를 바꾸게 된 것이다. 이후 가필드는 문헌을 정리하고 이 정보를 쉽게 찾는 방법에 흥미를 갖기 시작했다. 그리고 화학 관련 문헌들을 정리하고 검색하는 일도 하나의 직업이 될 수 있으리라 생각했다.
가필드는 당시 알려지기 시작한 기계를 이용한 정보 처리로 관심을 옮겼고, 과학 관련 문헌정보를 기계적으로 정리하는 방법에 관한 심포지엄을 개최했다. 이 심포지엄에서 가필드는 ‘법률정보인용집(Shepard’s Citations)’을 접하게 된다.
1873년 처음 만들어진 법률정보인용집은 판례인용색인으로 미국에서 이뤄진 모든 재판과 그 재판에서 인용된 판례에 관한 정보를 담고 있는 자료다. 판례가 중시되는 법조계에서 이 인용집은 반드시 필요한 존재였다.
법률정보인용집과의 만남은 가필드에게 행운이었다. 학술논문의 리스트를 만드는 일은 단순히 기계적으로 문헌을 배열하는 작업이 아니었다. 많은 분량의 문헌을 비판적으로 검토해야 했기 때문에 가필드는 학술문헌을 언어학적으로 분석하면서 일련의 색인 정보를 찾았다. 색인 정보를 제대로 이용하려면 어떤 구조가 필요했는데, 법률정보인용집은 바로 가필드가 찾고 있던 구조로 돼 있었다.
여기서 힌트를 얻은 가필드는 법조계에서 사용하는 법률정보인용집처럼 과학 문헌도 색인으로 만들어야겠다고 결심했다. 그 뒤 그는 이 계획을 컬럼비아대 도서관학과 석사논문으로 작성했고, 1955년 ‘과학에 대한 색인목록; 아이디어의 연관을 통한 문헌의 새로운 차원’이란 제목으로 ‘사이언스(Science)’지에 요약해 발표했다.
그는 기존의 학술 논문이 중요한 개념을 설명하기 위해 독자들에게 원문을 참조하도록 했다. 서지 인용에 의지하는 방식을 벗어나고자 한 것이다. 또 논문정보 검색에서 색인 전문가가 설정한 핵심어(keyword)와 함께 논문의 인용 정보를 함께 이용하는 것이 필요하다는 것을 깨달았다.
이를 위해 가필드는 논문을 통해 예전에 발간된 다른 문헌들에 있을 수 있는 오류나 잘못된 정보를 쉽게 파악할 수 있는 시스템을 만들어야 하며, 무비판적으로 과거의 문헌을 인용하는 단점을 극복해야 한다고 생각했다.
가필드는 문헌을 정리하는 과정에서 어떤 논문은 내용이 훌륭해 다른 연구자들에게 자주 인용되고, 어떤 논문은 내용이 불량해 쓰레기 취급을 받는다는 사실을 목격했다. 이 둘을 구분하기 위해 그는 자주 등장하는 주제어 3만 개의 카드를 만들어 통계를 내다가 ‘인용 순위’라는 방법론을 고안해 냈다.
이 방법론은 문헌의 인용빈도를 추적함으로서 학술 논문의 영향력을 평가하는 방식이다. 상대적인 인용빈도에 따라 논문은 더 높은 영향력 순위를 얻고, 그 논문에 인용한 모든 자료에 다시 더 높은 가중치가 부여된다.
이 같은 아이디어를 바탕으로 1955년 가필드는 전문적인 학술 문헌의 인용색인을 발행하는 과학정보연구소(ISI)라는 회사를 설립했다. 과학정보연구소는 1992년 톰슨 사이언티픽이란 이름으로 활동하다가 2008년부터는 통신회사인 로이터스와 합병되어 톰슨 로이터스란 이름으로 활동하고 있다.
흔히 방송이나 신문에서 ‘SCI(과학인용색인)’급이라고 보도되는 논문들은 정부나 공공기관에서 인증한 것이 아니라 영리를 목적으로 하는 톰슨 로이터스에서 구축하는 데이터베이스에 등재된 논문을 가리키는 것이다.
이 때문에 1961년 SCI의 초기 모습인 유전학인용색인(Genetics Citation Index)이 나오고 1964년 SCI가 상업적인 출판물로 발행됐을 때 연구자들과 대학?국공립 도서관들은 SCI에 거의 관심을 보이지 않았다.
그러나 세월이 흐르면서 과학정보연구소는 사회과학(Social Science Citation Index)과 인문학(Art and Humanities Citation Index)까지 포함하는 인용색인을 만드는 회사로 성장했다. 그러면서 민간기업이 만들어내는 인용색인이 학계의 표준처럼 자리를 잡았다.
뿐만 아니라 가필드의 인용순위 개념은 미국 스탠퍼드대 대학원생인 래리 페이지와 세르게이 보린에게 영감을 선사했다. 두 사람은 가필드의 핵심어 중심의 검색방법에 착안해 인터넷 사용자가 포탈 검색창에 넣는 ‘질의어’ 성분을 분석해 유명 사이트에 링크된 정도를 추천하는 방식의 검색엔진을 만들었으니 그게 바로 구글이다.
현재 구글의 검색 방법이 아주 완벽한 것은 아니다. 구글은 모든 이용자의 욕구를 만족시키려 했기 때문에 인터넷을 검색어 순위대회로 변질시켰다. 그로 인해 더 작은 분야에 깊은 관심을 갖는 집단은 희생을 떠안게 됐다. 가령 연구자의 숫자는 적어도 핵심적인 연구 분야는 응용학문에 비해 링크가 덜 되기 때문에 포털에 쉽게 노출이 되지 않을 수 있다.
이 글의 많은 내용은 가필드의 홈페이지에서 발췌한 것이다. 그는 ‘문헌정보학자’답게 자신의 연구논문과 인터뷰 기사를 포함해 SCI와 영향력지수(IF)의 탄생에 이르는 모든 내용을 제공하고 있으며 다음과 같이 힘주어 말한다.
“당신이 연구하는 주제와 관련해 핵심내용이 실린 논문이나 책이 있다면, 그 자료가 어떤 문헌에서 인용됐는지 확인하세요. 그래야 당신의 연구분야에서 가장 시급한 주제가 무엇이고 당신이 설계해야 할 실험이 무엇인지 알게 될 것입니다.”
글 : 서금영 과학칼럼니스트
『계량서지학과 인용분석: SCI에서 사이버매트릭스까지』
니콜라 드 벨리스 지음. 계량정보연구포럼 옮김
지난 3월 19일 『계량서지학과 인용분석: SCI에서 사이버매트릭스까지』라는 번역서가 나왔다. 이 책의 저자는 이탈리아의 의학전문 사서인 니콜라 드 벨리스로 2005년 ‘이탈리아 출판협회’가 시상하는 ‘오늘의 도서관상’을 수상했다. 계량정보학계의 최고 권위자인 유진 가필드 박사는 이탈리아어로 된 이 책의 영문판 출판을 권유하고 많은 조언을 했다.
‘계량정보연구포럼’은 각계의 계량정보학 관련 전문가로 구성된 모임이며 1년여의 노력 끝에 한글판을 한국과학기술정보연구원을 통해 출판하였다. 이 책은 계량서지학과 과학계량학 등 유사 분야에 관심있는 이들에게 중요한 자료로 활용될 것이다.
1940년대 미국 컬럼비아대 화학과를 졸업한 가필드는 과학자로서 청운의 꿈을 품고 화학실험에 몰두했다. 그러나 몇 차례 폭발 사고를 경험하면서 화학 연구가 자신의 적성에 맞지 않는다고 여겼다.
때마침 미국 존스홉킨스대 의학도서관에서 발주한 ‘의료 논문 최신 리스트’를 만드는 프로젝트에 참여했다가 인생이 바뀌었다. 문헌정보학으로 진로를 바꾸게 된 것이다. 이후 가필드는 문헌을 정리하고 이 정보를 쉽게 찾는 방법에 흥미를 갖기 시작했다. 그리고 화학 관련 문헌들을 정리하고 검색하는 일도 하나의 직업이 될 수 있으리라 생각했다.
가필드는 당시 알려지기 시작한 기계를 이용한 정보 처리로 관심을 옮겼고, 과학 관련 문헌정보를 기계적으로 정리하는 방법에 관한 심포지엄을 개최했다. 이 심포지엄에서 가필드는 ‘법률정보인용집(Shepard’s Citations)’을 접하게 된다.
1873년 처음 만들어진 법률정보인용집은 판례인용색인으로 미국에서 이뤄진 모든 재판과 그 재판에서 인용된 판례에 관한 정보를 담고 있는 자료다. 판례가 중시되는 법조계에서 이 인용집은 반드시 필요한 존재였다.
법률정보인용집과의 만남은 가필드에게 행운이었다. 학술논문의 리스트를 만드는 일은 단순히 기계적으로 문헌을 배열하는 작업이 아니었다. 많은 분량의 문헌을 비판적으로 검토해야 했기 때문에 가필드는 학술문헌을 언어학적으로 분석하면서 일련의 색인 정보를 찾았다. 색인 정보를 제대로 이용하려면 어떤 구조가 필요했는데, 법률정보인용집은 바로 가필드가 찾고 있던 구조로 돼 있었다.
여기서 힌트를 얻은 가필드는 법조계에서 사용하는 법률정보인용집처럼 과학 문헌도 색인으로 만들어야겠다고 결심했다. 그 뒤 그는 이 계획을 컬럼비아대 도서관학과 석사논문으로 작성했고, 1955년 ‘과학에 대한 색인목록; 아이디어의 연관을 통한 문헌의 새로운 차원’이란 제목으로 ‘사이언스(Science)’지에 요약해 발표했다.
그는 기존의 학술 논문이 중요한 개념을 설명하기 위해 독자들에게 원문을 참조하도록 했다. 서지 인용에 의지하는 방식을 벗어나고자 한 것이다. 또 논문정보 검색에서 색인 전문가가 설정한 핵심어(keyword)와 함께 논문의 인용 정보를 함께 이용하는 것이 필요하다는 것을 깨달았다.
이를 위해 가필드는 논문을 통해 예전에 발간된 다른 문헌들에 있을 수 있는 오류나 잘못된 정보를 쉽게 파악할 수 있는 시스템을 만들어야 하며, 무비판적으로 과거의 문헌을 인용하는 단점을 극복해야 한다고 생각했다.
가필드는 문헌을 정리하는 과정에서 어떤 논문은 내용이 훌륭해 다른 연구자들에게 자주 인용되고, 어떤 논문은 내용이 불량해 쓰레기 취급을 받는다는 사실을 목격했다. 이 둘을 구분하기 위해 그는 자주 등장하는 주제어 3만 개의 카드를 만들어 통계를 내다가 ‘인용 순위’라는 방법론을 고안해 냈다.
이 방법론은 문헌의 인용빈도를 추적함으로서 학술 논문의 영향력을 평가하는 방식이다. 상대적인 인용빈도에 따라 논문은 더 높은 영향력 순위를 얻고, 그 논문에 인용한 모든 자료에 다시 더 높은 가중치가 부여된다.
이 같은 아이디어를 바탕으로 1955년 가필드는 전문적인 학술 문헌의 인용색인을 발행하는 과학정보연구소(ISI)라는 회사를 설립했다. 과학정보연구소는 1992년 톰슨 사이언티픽이란 이름으로 활동하다가 2008년부터는 통신회사인 로이터스와 합병되어 톰슨 로이터스란 이름으로 활동하고 있다.
흔히 방송이나 신문에서 ‘SCI(과학인용색인)’급이라고 보도되는 논문들은 정부나 공공기관에서 인증한 것이 아니라 영리를 목적으로 하는 톰슨 로이터스에서 구축하는 데이터베이스에 등재된 논문을 가리키는 것이다.
이 때문에 1961년 SCI의 초기 모습인 유전학인용색인(Genetics Citation Index)이 나오고 1964년 SCI가 상업적인 출판물로 발행됐을 때 연구자들과 대학?국공립 도서관들은 SCI에 거의 관심을 보이지 않았다.
그러나 세월이 흐르면서 과학정보연구소는 사회과학(Social Science Citation Index)과 인문학(Art and Humanities Citation Index)까지 포함하는 인용색인을 만드는 회사로 성장했다. 그러면서 민간기업이 만들어내는 인용색인이 학계의 표준처럼 자리를 잡았다.
뿐만 아니라 가필드의 인용순위 개념은 미국 스탠퍼드대 대학원생인 래리 페이지와 세르게이 보린에게 영감을 선사했다. 두 사람은 가필드의 핵심어 중심의 검색방법에 착안해 인터넷 사용자가 포탈 검색창에 넣는 ‘질의어’ 성분을 분석해 유명 사이트에 링크된 정도를 추천하는 방식의 검색엔진을 만들었으니 그게 바로 구글이다.
현재 구글의 검색 방법이 아주 완벽한 것은 아니다. 구글은 모든 이용자의 욕구를 만족시키려 했기 때문에 인터넷을 검색어 순위대회로 변질시켰다. 그로 인해 더 작은 분야에 깊은 관심을 갖는 집단은 희생을 떠안게 됐다. 가령 연구자의 숫자는 적어도 핵심적인 연구 분야는 응용학문에 비해 링크가 덜 되기 때문에 포털에 쉽게 노출이 되지 않을 수 있다.
이 글의 많은 내용은 가필드의 홈페이지에서 발췌한 것이다. 그는 ‘문헌정보학자’답게 자신의 연구논문과 인터뷰 기사를 포함해 SCI와 영향력지수(IF)의 탄생에 이르는 모든 내용을 제공하고 있으며 다음과 같이 힘주어 말한다.
“당신이 연구하는 주제와 관련해 핵심내용이 실린 논문이나 책이 있다면, 그 자료가 어떤 문헌에서 인용됐는지 확인하세요. 그래야 당신의 연구분야에서 가장 시급한 주제가 무엇이고 당신이 설계해야 할 실험이 무엇인지 알게 될 것입니다.”
글 : 서금영 과학칼럼니스트
『계량서지학과 인용분석: SCI에서 사이버매트릭스까지』
니콜라 드 벨리스 지음. 계량정보연구포럼 옮김

‘계량정보연구포럼’은 각계의 계량정보학 관련 전문가로 구성된 모임이며 1년여의 노력 끝에 한글판을 한국과학기술정보연구원을 통해 출판하였다. 이 책은 계량서지학과 과학계량학 등 유사 분야에 관심있는 이들에게 중요한 자료로 활용될 것이다.

추천 콘텐츠
인기 스토리
-
- 저주파 자극기, 계속 써도 괜찮을까?
- 최근 목이나 어깨, 허리 등에 부착해 사용하는 저주파 자극기가 인기다. 물리치료실이 아니라 가정에서 손쉽게 쓸 수 있도록 작고 가벼울 뿐만 아니라 배터리 충전으로 반나절 넘게 작동한다. 게다가 가격도 저렴하다. SNS를 타고 효과가 좋다는 입소문을 퍼지면서 판매량도 늘고 있다. 저주파 자극기는 전기근육자극(Electrical Muscle Stimu...
-
- 우리 얼굴에 벌레가 산다? 모낭충의 비밀스러운 삶
- 썩 유쾌한 얘기는 아니지만, 우리 피부에는 세균 같은 각종 미생물 외에도 작은 진드기가 살고 있다. 바로 모낭충이다. 모낭충은 인간의 피부에 살면서 번식하고, 세대를 이어 간다. 태어난 지 며칠 되지 않은 신생아를 제외한 거의 모든 사람의 피부에 모낭충이 산다. 인간의 피부에 사는 모낭충은 크게 두 종류가 있다. 하나는 주로 얼굴의 모낭에 사는...
-
- [과학향기 Story] 차 한 잔에 중금속이 줄었다? 찻잎의 숨겨진 능력!
- 하루하루 바쁘게 사는 현대인들은 잠을 깨우기 위해 커피를 마신다. 이에 커피 소비량이 급격히 늘어나고 있지만, 아직 커피의 소비량은 ‘차(茶)’의 소비량을 뛰어넘지 못했다. 이는 많은 국가에서 차를 일상적으로 소비하는 문화가 자리 잡고 있기 때문이다. 또한 카페인 외에도 다양한 성분이 함유돼 있어, 건강을 목적으로 섭취하는 사람들도 다수 존재한다. ...
이 주제의 다른 글
- [과학향기 Story] 차 한 잔에 중금속이 줄었다? 찻잎의 숨겨진 능력!
- [과학향기 Story] 국제 협력을 통한 기술 표준화, 상생의 길을 열다
- [과학향기 for Kids] 잘 모를 때 친구 따라 하는 이유!
- [과학향기 Story] AI 전문가, 인간과 함께 미래 유망기술을 꼽다
- [과학향기 Story] 범람하는 가짜 정보 속, 정확한 정보를 얻고 싶다면? ‘사이언스온’으로!
- [과학향기 Story] 서로의 이름을 부르는 원숭이가 있다?
- [과학향기 for Kids] ‘항문으로 숨을 쉴 수 있다?’…엉뚱한 이그노벨상 연구들
- [과학향기 for Kids] 창과 방패의 전쟁, 사이버 공격 VS 사이버보안
- [과학향기 Story] 음악이 변했다? 음악이 진화했다!
- [과학향기 Story] 3시간 후에 침수가 일어난다? ‘데이터’는 알고 있다
구글검색엔진의 모태가 1955년 아니, 거슬러올라가면 1873년 법률정보인용집에 있었군요. 흥미로운 기사네요. 근데 전 너무 국내 검색엔진에 익숙해버려서인지 구글의 검색결과를 보면 너무 답답한 느낌이 들더라구요. 어떤 글에서 읽어보니 우리나라는 '관계'를 중시하는 사회라서 이러한 독특한 검색엔진이 발달한것이라고도 하더군요. 뭐가 좋은지는 각 이용자의 편의와 취향에 달려있는 거겠죠.
2011-03-24
답글 0
발상의 전환이 인류의 발전을 가져오는 군요. 느끼는 바가 많습니다. 늘 발상의 전환을 꿈꾸며 살아가도록 노력해야 겠네요. 좋은 글 잘 읽었습니다.
2010-09-04
답글 0
과학하는 사람에게 매우 유익한 글이네요. 잘 읽고 갑니다.
2010-07-31
답글 0
내용이 너무 좋습니다~ 트위터로 바로 가져가기 버튼이 있다면 편할텐데.. 아쉬워요.
2010-07-19
답글 0