본문 바로가기

정보검색사/검색방법

인터넷 검색전략프로세스 펌글

 



인터넷 검색전략프로세스




 






    1. 원하는 정보에 대한 인터넷상에서의 검색 가능성 판단


    2. 정보가 위치할 가능성이 높은 인터넷 공간을 확인하고 검색 툴을 결정


    3. 원하는 정보를 찾을 수 있는 정보자원군의 확인


    4. 검색식에 의한 검색 범위의 구체화


    5. 결과의 판단과 보충 검색


 



2. 1단계




원하는 정보가 인터넷을 통해서 검색될 가능성이 높은가를 확인한다.








검색 가능성이 높은 정보의 종류


  • 지역별 : 미국정보
  • 종류별 : 공공정보
  • 분야별 : 컴퓨터,엔지니어링

 


인터넷이 방대한 정보자원을 보유하고 있다고는 하지만 전세계의 모든 정보들이 공개될 수 있는 것은 아니다. 한편 인터넷의 특성상 인터넷이 아닌 다른 매체를 이용한 정보 자원들이 많이 있다는 사실을 고려할 때 인터넷에서 제공될 수 있는 정보의 범위에 대해서 정확히 확인하고 필요한 정보를 인터넷상에서 얻을 수 있는가에 대한 정확한 판단이 요구되는 것이다.


인터넷은 일단 기계판독어로 만들어진 정보에 대해서만 제공이 가능하다. 예를 들어 전자신문이라는 형태의 인터넷 웹 신문들이 다양하게 제공되고 있지만 출판된 신문 내용이 모두 인터넷 웹 신문에 포함되지 않는 경우가 많이 있다. 뉴욕타임즈에 발표된 것으로 알려진 기사를 인터넷 뉴욕타임즈 웹 사이트에서는 확인되지 않는 경우도 종종 발생되곤 한다. 그러나 신문이나 주요 간행물 등은 인터넷에서 가장 흔히 접할 수 있는 정보들이다. 각종 디렉토리나 학술지 등은 이미 상용 데이터베이스를 통해서 상당부분 데이터베이스화 되어 있어, 인터넷 웹에서도 쉽게 확인될 수 있을 것 같지만 의외로 이러한 정보들을 찾기란 쉽지 않다. 이는 텍스트 형태로 이미 만들어진 데이터베이스를 인터넷 웹에서 사용될 수 있는 형태의 정보로 바꾸는 작업이 매우 까다롭고 많은 노동력을 필요로 하는 일이기 때문이기도 하다.


결국 인터넷에서 정보를 찾기 위해서는 인터넷의 성격을 섬세하게 파악하고 있어야 한다. 지역적으로 볼 때 전체 사이트의 70%가 미국에서 만들어 지고 있어 당연히 미국 정보가 많다. 하지만 70%라는 것이 반드시 인터넷에서 제공되는 정보의 70%라는 의미는 아니다. 미국 정보에서 만들어진 사이트들 중 상당수는 미국 외 정보들을 다루고 있어 일본 산업정보를 미국에서 만들어진 영문 사이트로 검색하는 경우도 적지 않다. 한편 남미 국가들에 관한 정보의 경우 지역적으로 미국민들의 관심이 높은 까닭에 의외로 정보량이 많다. 하지만 동남이 국가들의 경우 우리의 생각과는 달리 남미 국가들에 비해서 상대적으로 미국의 관심도가 낮은 까닭에 미국 사이트를 통해서 정보를 찾는 것이 쉽지는 않다. 유럽의 경우 영국 정보들이 많은 편이며 프랑스는 공공정보가, 이탈리아는 상업적인 목적의 사이트들이 많은 것들도 지역적 특성이다.


인터넷에 공공정보가 많다는 것은 전문가들에게 있어서는 상식으로 인식되고 있다. 공공정보 역시 여러 가지가 있으나 일단 정보에서 만들어 공급하는 공공정보와 민간 공공기관의 정보들로 구분할 수 있다. 정부 정보의 경우 정보 관리와 유통 체계가 잘 되어 있는 미국 정부가 가장 강력한 정보자원이지만 행정부나 입법부의 정보관리 기관이나 체계를 모르면 오히려 정보 찾기가 어려워 진다. 이에 비해서 아프리카나 남미 등의 국가 정보는 비록 충분하지는 않지만 정보 제공 사이트가 적은 까닭에 쉽게 조직화 될 수 있으며 또 이렇게 조직화 하여 한 화면에서 여러 기관들을 체계적으로 검색할 수 있게 해 주는 사이트들도 적지 않게 등장하고 있다.


공공정보라고 해서 행정부의 활동을 홍보하는 정보만 생각하면 검색의 범위가 위축될 수 밖에 없다. 미국의 경우 13,000여개 상장기업의 모든 상세 정보들이 공공정보이며 미국 특허청에서 제공되는 특허 출원 정보, 전세계 시장의 동향정보, 미국의 수출입 통계정보 등 상업성이 높은 정보들도 정부 기관들이 관리하고 있는 정보들은 모두 공공정보로 공개되고 있다. 이 외에도 보건부나 교육부, 농업부 등에서 관리하고 있는 전세계 주요 의학 자료, 교육 자료, 농업 자료 등도 인터넷을 통해서 무료로 제공되고 있다. 중요한 것은 어떤 기관에서 어떤 정보를 관리하고 있는지, 그리고 그 기관이 어떤방식으로 정보를 공급하고 있는지를 항상 숙지하고 있어야 한다는 것이다.


한편 분야별로 볼 때 인터넷에서 가장 흔히 만날 수 있는 정보들이 전자나 컴퓨터 관련 정보들이다. 이 외에도 물리학기나 공학 등 응용과학 관련 정보들이 많으며 상대적으로 인문, 사회과학 정보들의 비중은 낮다. 한편 기업정보의 경우 정보의 양은 많으나 조직적인 관리가 안되고 있어 질이 떨어질 뿐 아니라 중복되는 정보들이 많다. 예를 들어 미국 기업에 관한 정보들은 내용이 상세할 경우 대부분 SEC에서 나온 자료들을 약간의 가공 과정을 거치거나 혹은 그대로 제공하고 있으며 유럽 기업 정보 중 상당수는 EXTEL에서 제공하는 정보들을 다시 올려 두고 있다. 한편 간단한 포맷의 기업정보는 사실상 기업정보라기 보다 전화번호부 파일을 그대로 복사해서 사용하는 경우가 많다. 이런 종류의 정보를 검색할 때 이러한 사실을 인지하지 못한 채 작업을 시작할 경우 여러 사이트를 뒤지면서 동일한 정보만 만나는 헛수고를 하게 된다. 오픈 사이트에서 얻을 수 있는 정보들 중 고급 정보들은 대학 사이트를 통해서 가장 쉽게 획득되므로 내가 필요한 정보가 어떤 대학에서 혹은 어떤 학과에서 관심을 가질 만 한 것인지를 한번쯤 생각해 보는 것도 검색의 효율성을 높일 수 있는 좋은 방법이다.


 



3. 2단계




정보가 위치할 가능성이 높은 인터넷 공간을 확인하고 검색 툴을 결정












  • 정보 공간을 구체화 할 수 없을 경우 :  HotBot
  • 명확한 주제를 전제로 구체적인 사이트를 찾을 경우 : Yahoo
  • 텍스트 형태로 된 정보를 찾을 경우 : Veronica
  • 특정성이 낮은 주제어를 활용하여 웹에서 검색할 경우 : MetaCrawler
  • 소프트웨어 툴을 검색 : Archie
  • 라이브러리 카탈로그의 특정 telnet 어드레스로 접근할 경우: HyTelnet
  • 인터넷 메일링 리스트를 검색 : Liszt
  • 유스넷 뉴스로부터 정보를 찾을 경우 : DejaNews
  • e-mail 어드레스를 검색 : WhoWhere?



 


인터넷은 운영을 전담하고 데이터를 통제하는 센터가 없다. 이는 인터넷에 올라가는 정보들에 대한 규제가 되지 않는다는 의미이기도 하다. 최근 음란물의 탑제와 검색에 대한 논란이 끊임없이 일어나고 있는 것도 바로 이러한 이유에서이다. 인터넷에서 그나마 약간의 통제가 가능한 것은 인터넷에서 검색하고 출력할 수 있는 몇 가지 프로토콜의 표준화가 이뤄져 있기 때문이다. 즉 약속된 프로토콜과 유틸리티를 사용함으로써 그 규약 내에서만 정보의 형태를 만들어 제공할 수 있는 것이다.


초기 인터넷에서 인기를 끌어왔던 gopher는 WEB이 등장하기 전 까지 인터넷에서 가장 보편적으로 사용되던 툴이었다. 최근 웹이 등장하면서 gopher의 인기는 급속히 떨어지고 있지만 여전히 과거 gopher를 이용하여 서비스되던 데이터들의 양은 무시할 수 없는 정도이다. 특히 대학들이 제공하고 있는 많은 정보들은 아직gopher 툴을 이용하고 있으며 이들은 웹과 연동되어 대량의 데이터를 손쉽게 사용자와 접할 수 있도록 하고 있다.


한편 telnet은 원거리 시스템과의 데이터 교환이 가능한 프로토콜로 원거리 시스템으로의 접속 이후 시스템 환경의 제약을 거의 받지 않는다. 즉 특정 시스템의 검색기능이나 각종 유틸리티를 그대로 사용할 수 있는 것으로 인터넷의 활용범위를 현저히 넓혀 주고 있는 기능이다. 이는 지금도 여전히 사용되고 있는 기능으로서 telnet 사용자 입장에서는 인터넷이 단순히 특정 컴퓨터 시스템으로 접근하여 정보를 교환하는 도로 역할만 하게 되는 것이다.


WEB은 최근 가장 인기를 끌고 있는 프로토콜로서 오늘날 많은 사람들은 인터넷을 WEB과 혼돈하고 있을 정도이다. 멀티미디어 기능을 자유자제로 구현할 수 있고 GUI기능을 이용한 다양하고 개성 있는 화면을 구성할 수 있다는 점에서 당연히 앞으로 인터넷에서 가장 빠르게 발전하게 될 것은 의심의 여지가 없다. 그러나 웹의 경우 하이퍼텍스트 기능을 이용 함으로서 데이터의 검색이 어렵고 대량의 데이터를 취급하는 데 한계가 있다는 점이 여전히 한계로 남고 있다. 물론 DB엔진 등을 탑재하여 연동을 하고 있기는 하지만 이 역시 과거 전문DB의 정교한 검색기능 등을 구현하는 데는 어려움이 있다.


한편 WEB은 손쉽게 만들 수 있을 뿐 아니라 화면이 화려하고 다양한 기능을 구현할 수 있다는 점에서 많은 사람들이 애용하면서 단순한 사용만이 아니라 자신의 정보를 올리는 일이 많아지고 있다. 여기서 정보의 통제가 어려운 까닭에 인터넷 사용자들이 거의 관심을 가지지 않는 개인 소개나 혹은 전혀 가치가 없거나 검증되지 않은 자료들을 무작위로 올림으로서 인터넷을 혼란스럽게 하는 주범이 되기도 한다. 이 외에도 바이너리 파일을 검색하기 위한 Archie 등이 있으며 인터넷 E-mail 어드레스를 확인하기 위한 툴이나 개인 홈페이지를 확인하기 위한 툴, 방대한 전세계의 게시판이라 할 수 있는 유스넷 공간 등이 정보를 얻을 수 있는 공간들로서 무엇보다 내가 필요한 정보가 어떤 공간에 존재하고 있는지, 그리고 어떤 툴을 이용해서 검색하는 것이 효과적인지 등을 먼저 파악한 다음 작업에 착수하는 태도가 필요하다.



4. 3단계




정보 자원을 확인


찾으려는 정보가 소재하고 있을 가능성이 높은 정보자원을 확인한다. 일반적으로 HTML로 코딩 된 오픈 사이트로 제한할 경우 웹 검색엔진을 이용하여 검색할 수 있으나 많은 고급 정보들은 폐쇄된 사이트에서 정보가 제공될 뿐 아니라 DB 형태로 가공되어 있어 검색엔진을 통해서 확인할 수 없는 경우가 많다. 원하는 정보가 검색될 수 있는 자원을 먼저 확인하여 검색 전략을 구체화 하는 것이 가장 효율성을 높일 수 있는 방법이다. 정보 자원은 다음과  같이 분류할 수 있다.


  • 구체화 할 수 없을 경우

검색 툴을 이용한다. 웹 오픈 사이트의 경우 Alta Vista나 HotBot 등의 엔진을, Gopher 사이트의 경우 Veronica를, 유스넷의 경우 Deja News 등의 엔진을 이용하여 필요한 정보를 소장하고 있는 구체적인 위치를 확인할 수 있다. 하지만 이 경우 히트 율이 낮아 원하는 자료와 관련된 검색어를 포함하고 있는 것으로 확인된 정보들 중 상당수가 실지로 필요한 정보가 아닌 경우가 많다. 이는 자료들이 체계적으로 구성되어 있지 않거나 표준화 되지 못한 상태로 제각기의 특성과 기호에 맞춰 만들어진 까닭도 있으나 또 한편으로는 자료를 구성하고 있는 단어들이 전혀 통제되지 못한 자연어를 사용하고 있으며  내용 또한 검증되지 못한 상태인 경우가 많기 때문이기도 하다. 한편 오픈 사이트 정보가 많은 까닭에 정보에 대한 신뢰도를 보장할 수 없다는 점도 문제점으로 지적되곤 한다. 즉 어떤 개인이 자신의 주관에 따라 정보를 올릴 경우 이는 특정 개인의 주관을 배제한 객관성을 보장할 수 없다는 것인데 이러한 정보는 비단 개인 홈페이지와 같은 사소하고 미미한 문제로 무시할 수 없다. 홍보용 홈페이지가 많은 까닭에 특정 기업이나 단체 등에 유리한정보들을 선별하에 제공하거나 심지어 사실과 다른 정보들이 홍보 목적으로 제공되기도 하며 객관성이 높은 정보들의 경우도 한 주제에 대한 편중된 자료만 모아 둠으로써 판단에 있어서의 객관성을 보장할 수 없는 경우도 흔히 있다. 이러한 점들에 있어서 검색엔진 등을 통해서 무작위 검색을 하는 경우 특히 검색된 자료의 신뢰도에 신경을 써야 한다는 것이다.


  • 공공정보 자원에서부터의 검색

공공정보자원은 일단 신뢰도나 자료의 객관성에 있어서 무리가 없을 뿐 아니라 정보의 질이나 양에 있어서도 매우 좋은 자원이다. 특히 공공 정보들 중 많은 것들이 정부에서 만들어져 제공되는 것으로서 국가의 공식 정보로 인식되고 있는 것들이기도 하다. 물론 공공정보가 모두 정부 문서 보관소자료처럼 방대하고 높은 신뢰도를 가진 것은 아니다. 민간 비영리단체에서나 정부 산하단체나 기관들에서 제공되는 것들 중에서는 규모도 작고 신뢰도가 떨어지는 것도 없지 않다. 그러나 기관의 신뢰도 등을 먼저 확인할 때 자료의 신뢰도 문제는 충분히 극복될 수 있다. 공공정보를 검색하기 위해서는 무엇보다 정보 소재지를 확인하는 것이 중요하다. 예를 들어 미국 국회 도서관 자료는 국회도서관 데이터베이스를 통해서 검색되지만 국회보고서 등은 국회자료 데이터베이스에 의해서 검색된다. 한편 미국 상장기업 정보는 SEC가 관리하며 특허는 USPTO가 관리한다. 의학정보는 보건부 정보센터인 MEDLAR Center에서는 전세계 주요 의학 및 간호학 관련 논문과 기사들을 수집, 제공하고 있으며 미국 농업부 산하 정보센터에서는 농업 관련 통계나 연구자료 등을 수집, 제공하고 있다. 한편 미국 면화협회에서는 면화 관련 전세계 산업정보를 수집하고 있으며 오스트리아에 위치한 유럽특허청은 EU 국가들의 특허 출원을 담당하고 있다. 공공정보를 효과적으로 활용하기 위해서는 이러한 내용들을 사전에 이해하고 있거나 이러한 관계 등을 파악할 수 있는 검색 보조도구가 준비되어 져야 한다. 미국에서는 Public Record 관련 연구나 세미나 등이 활발하게 이뤄지고 있으며 검색사들 중 공공정보를 전문으로 취급하는 전문가들이 상당 수를 차지하고 있는 형편이다.


  • 영리기관의 무료정보

영리기관에서 정보를 무료로 제공하는 경우 자사의 정보력 등을 홍보하기 위한 목적이거나 혹은 출판사의 경우 출판물의 일부를 판촉 목적으로 공개한다. 여기서 주의할 사항으로 무료로 공개되는 정보에 대해서는 정보의 품질이나 신뢰도에 대해서 제공자에게 요구하거나 항의하기가 힘들다는 것이다. 즉 정보의 신뢰도에 대한 보장이 없기 때문에 정보 제공자의 공신력에 특히 주의할 필요가 있다. 대표적인 경우 영국 Financial Times에는 자체 출판물 기사 중 일부 뿐 아니라 자회사인 EXTEL의 정보 등도 일부 공개하고 있다. Financial Times의 경우 세계적으로 공신력을 인정 받고 있는 기관으로서 여기서 제공되는 정보에 대해서는 거의 의심 없이 사용할 수 있다. 하지만 이름 없는 많은 소규모 정보회사 들이나 증권투자 자문회사 들이  여러 기업들에 대한 다양한 정보를 제공하고 있는데 이들 중 상당수는 특정 개인이나 기업의 주관이 강하게 들어 있는 경우가 많다.


영리기관의 무료정보로서는 우선 세계적으로 공신력을 인정 받고 있는 언론사의 간행물들이 가장 많은 수를 차지하고 있다. 예를 들어 Washington Post나 USA Today, CNN 등과 시사정보지인 Time이나 Fortune, Economist 등이 무료로 제공되고 있으며 이 외에도 국내 주요 일간지들도 모두 무료로 접속이 가능하다. 97년 9월 현재 인터넷에서 제공되고 있는 신문의 경우 전세계적으로 약 800여종에 이르는 것으로 확인되고 있다. 그러나 이들 간행물들 역시 제공기관의 신뢰도를 확인하여야 한다. 특히 웹진 등의 경우 정보의 신뢰도를 보장하기 힘든 경우가 많다.


마케팅 리서치 기관들의 자료도 활용가치가 높다. 물론 이들 기관들이 무료로 모든 정보를 제공하지는 않는다. 하지만 Data Quest나 Frost & Sullivan, Freedonia 등에서는 분석 보고서들의 타이틀을 공개하고 있어 자료의 소재를 파악하거나 작업 범위를 결정하는 등에 좋은 참고자료가 되기도 한다. 한편 Data Quest 나 Anderson Consulting, Bloomberg 등에서 제공되는 웹진은 단순한 정기간행물의 성격을 넘어서는 고급 정보로서의 활용가치를 인정 받고있어 이들도 무료로 활용할 수 있는 좋은 자료가 된다.


유통 업체들도 유용한 정보들을 제공하는 경우가 많다. Buyer's Market의 경우 미국에서 판매되는 모든 자동차들의 신차 및 중고차 가격과 스펙 등을 사진과 함께 제공하고 있어 자동차 정보를 필요로 하는 경우 좋은 자료로 활용될 수 있다. 물론 이 정보는 자동차 구매자를 찾기 위한 목적으로 무료로 제공되고 있는 것이다. 한편 Manufacturer's Market은 2차산업의 상품 생산자들의 홍보 기능을 제공하는 곳으로서 어떤 공산품을 필요로 하는 사람들이 자유자제로 들어와서 각종 상품과 생산자를 검색할 수 있도록 하는 곳이다. 이 경우 IP는 공산품 생산자들로부터 광고료를 받아 운영을 하면서 일반 사용자들은 무상으로 정보를 마음껏 사용할 수 있게 한다. 여기서 정보 전문가는 공산품의 종류와 생산자 정보를 얻을 수 있다. 이와 같은 온라인 유통 업체들의 정보는 원래 공개자의 목적과는 다르지만 각종 자료로 활용될 수 있다. 검색 전문가의 감각이 뛰어난 경우 사소한 자료들도 고급 자료로 변화시키는 경우가 적지 않다.


이 외에도 다양한 정보들이 무상으로 제공된다. 100년 이상의 역사를 가진 미국의 상품정보 업체인 Thomas Register는 공산품 및 서비스 상품에 관한 정보를 무료로 제공하고 있으며 대학 정보 전문 기관인Peterson은 미국의 모든 2년제 및 4년제 대학 정보를 무료로 제공하고 있다. 이 외에서 많지는 않지만 영리기관에서 무상으로 제공하는 정보들을 만날 수 있다.


  • 기업 홈페이지

자사 홍보를 목적으로 많은 기업들이 인터넷상에 홈페이지를 개설하고 있다. 이 경우 홍보를 목적으로 하는 까닭에 내용의 객관성은 엄격히 검증을 해 보아야 한다. 그러나 보통 기업 홈페이지는 회사 안내 브로셔 보다 훨씬 상세한 내용들을 확인할 수 있다는 점에서 기업정보로는 더없이 좋은 정보자원이다. 다만 각 기업들이 표준이 없이 임의로 만드는 까닭에 정보의 종류나 내용, 혹은 형식 등에 있어서 전혀 일관상을 찾을 수 없어 사용범위가 제한적인 단점이 있다.


보통 기업홈페이지에서 도움을 받을 수 있는 정보들로서는 특정 기업에서 생산하는 상품에 관한 상세정보나 주요 기술 등 타 정보자원에서는 확인하기 어려운 것들을 들 수 있다. 그리고 경우에 따라서는 일반 상용 데이터베이스 에서 확인된 정보를 검증하기 위한 목적으로 사용되기도 한다. 이 외에도 기업의 연혁이나 주요 사건 등에 관한 정보들을 얻을 수 있으나 사건 관련 기사 등의 경우 긍정적이고 홍보성이 높은 자료들을 중심으로 구성되어 있다는 점을 항상 고려하여야 한다. 가끔씩은 기업의 재무제표나 실적 등이 나와 있는 경우도 있으나 상장기업 재무제표의 경우 공식적으로 발표되는 자료인 까닭에 신뢰할 수 있지만 그렇지 않은 경우는 참고자료 정보로 활용하는 것이 좋다. 한편 기업 홈페이지들 중 업종과 관련된 자료들을 제공하거나 외부 사이트와 연결시켜 두는 경우가 많다. 이 경우 특정 분야 관련 자료로서 상당히 가치가 있는 것들이 많다. 특히 가끔씩 만날 수 있는 시장조사 보고서나 상품 평가 보고서 등은 자료 제공 회사의 입장을 옹호하는 경우가 대부분이기는 하지만 일단 가치있는 자료로 활용될 가능성이 높다.


홈페이지의 내용이나 형식으로 기업의 규모를 판단하는 것은 거의 불가능하다는 점을 간과하지 말아야 한다. 상장기업의 경우 상장이라는 그 자체가 의미하는 신뢰도를 바탕으로 할 때 홈페이지가 회사의 규모나 신뢰도를 판단하는 데 큰 영향을 주지 않지만 가끔씩 다른 곳에서 찾기 어려운 회사를 인터넷 홈페이지를 통해서 확인할 수 있다. 이 경우 회사에 대한 규모나 신뢰도 등을 홈페이지로 판단하는 것은 매우 위험하다. 대체로 홈페이지의 내용에서 주장하는 회사의 업종이나 상품 혹은 연락처 등을 기초로 추가 자료를 수집하여 판단자료로 삼는 것이 바람직 하다.


  • 대학 소장 정보

대학 소장정보는 어떤 사이트 보다 충실하고 방대한 정보 자원이다. 특히 정보의 종류에 있어서도 분야를 예측할 수 없을 만큼 다양하다. 이들 사이트들 중에서는 주요한 저널이나 상용 정보들을 무상으로 제공하는 경우도 많이 있어 특히 유용하게 활용될 수 있다. 예를 들어 미국 하버드대학 비즈니스 스쿨에서는 세계적으로 유명한 Harvard Business Review를 발행하고 있는데 이를 인터넷 웹진으로 서비스 하고 있기도 하다. 미국 텍사스 오스틴 대학은 전세계 주요 온라인 저널과 마케팅리서치 데이터베이스 목록 데이터베이스를 제공하고 있어 검색 전문가들에게 유용하게 활용되기도 한다. 코넬대학 법학 대학원 사이트에서는 미국 대법원의 판례들을 무상으로 제공하고 있기도 하며 미국 상무부에서 제공하는 유료 정보들을 상무부와의 계약에 의해 무료로 제공하는 대학들도 있다.


이러한 상업 정보가 아니더라도 대학 사이트에서는 엄청나게 많고 다양한 정보를 얻을 수 있다. 대학 사이트만 모아서 살펴보면 이것이 인터넷 속의 또 하나의 인터넷이라는 느낌이 들 정도이다. 학술정보나 논문자료 등은 세삼 말할 필요조차 없을 정도로 풍부하게 제공되고 있으며 상업적인 목적으로 활용될 수 있는 다양한 보고서들이나 자료들이 풍부하게 제공되고 있다. 특히 세계 유수 대학들은 인터넷을 통해서 공개되는 정보들의 내용과 품질을 대학의 자존심으로 생각하는 경우도 많아 정보의 질은 상당히 높은 편이다.


한편 대학 도서관을 연결하여 자료를 검색할 수 있도록 해 주는 경우도 있다. 물론 미국 등 선진국 대학의 경우 거의 모두가 이러한 기능을 갖고 있기는 하지만 대부분 재학생들을 위한 기능으로 접속 아이디를 가지고 있어야 한다. 하지만 가끔씩은 이들 도서관 자료 중 일부를 일반에게 무상으로 제공하고 있어 이러한 사이트들을 알아두면 도움이 된다.


  • 상업용 종합 데이터베이스

상업용 종합 데이터베이스는 유료인 까닭에 대중적인 관심은 현저히 떨어진다. 하지만 정보 전문가의 입장에서 볼 때 상업용 종합 데이터베이스는 고품질의 정보를 손쉽게 얻을 수 있는 좋은 자료원이다. 사용료가 좀 비싼 게 흠이기는 하지만 예상되는 정보를 별 수고 없이 얻을 수 있다는 점은 상업용 데이터베이스의 가장 큰 매력이다.


96년말과 97년초반에 걸쳐 인터넷 웹으로 탈바꿈한 Data-Star와 DIALOG는 텍스트형 상업용 데이터베이스를 인터넷 웹으로 바꿔 공개한 최초의 종합 데이터베이스이며 도 가장 큰 규모의 데이터베이스이기도 하다. 하지만 오랜 동안 텍스트 형태로 제작, 수정되어 온 이 복잡한 데이터베이스를 비록 화면만이라도 웹으로 바꾸면서 적지않은 프로그램상 오류가 남아있어 전문가들은 HyTelnet 기능을 이용한 텍스트 버젼의 사용을 권하기도 한다. 이와는 달리 Profound는 MAID를 아예 인터넷 웹으로 완전히 바꾼 경우이다. 즉 인터페이스만 바꾼 것이 아니라 아예 새로운 데이터베이스를 만든 것이나 다름 없다. 특히 Profound는 데이터의 성격이 DIALOG 등과 같은 레프런스 중심이 아닌 분석자료 중심으로서 특히 인터넷 사용자들에게는 적지 않은 도움을 줄 수 있을 것으로 보인다. InfoMarket은 이와는 달리 아예 첨부터 인터넷 웹으로만 개발된 제품이다. 그런 까닭에 인터넷 사용자들의 구미에 맞게 가입이 없어도 검색이 가능하고 또 일부 데이터를 샘플로 볼 수 있다. 가격체계도 다양하여 가끔씩은 무료로 제공되는 정보도 있으며 $20.00 까지의 비용이 요구되기도 한다. 이 외에도 여려 형태의 상업용 데이터베이스들이 인터넷을 통해서 제공되고 있다.


상업용 데이터베이스를 사용함에 있어서 주의해야 할 점으로 신뢰도가 높지 않은 정보들이 적지 않게 판매되고 있다는 것이다. 인터넷 웹의 경우 개발이 용이하고 네트웍을 통한 보급 비용이 저렴함으로 누구나 손쉽게 정보를 제작, 제공할 수 있다는 점이 장점이며 동시에 취약점으로 지적되고 있다. 서비스시스템의 개발 및 네트웍을 통한 보급은 용이한데 반해 정보 개발 및 가공 비용은 여전히 높기 때문에 자칫 시스템 개발에만 투자함으로서 정보의 질이 현저히 떨어지는 경우가 종종 나타난다는 것이다. 이 경우도 역시 정보 제공자의 공신력을 조사해 보는 것이 하나의 방법이 될 수 있을 것이다.


 



5. 4단계




검색 범위를 구체화




  • 검색툴의 특성에 따른 구체화
  • 검색어 조정에 따른 구체화

    검색어를 다양화, 구체화 한다. 예를 들어 blue를 표현하는 데 있어서 azure, cyan, cornflower 등의 검색어를 포함할 수 있다.


    철자에 유의한다. 인터넷 오픈 사이트의 대부분은 검색어 사용에 있어서 통제를 받지 않으므로 슬랭이나 구어체 등을 사용하는 경우도 많다. 특히 color, colour 등의 표기는 주의해서 사용할 필요가 있다.


    단어의 절단에 유의한다. 절단의 필요성과 함께 어느 위치에서 절단할 것인가를 신중히 고려해야 한다.


 


검색 식의 구체화


대부분의 검색 엔진들은 검색식을 통한 검색의 구체화가 가능한 기능들을 제공하고 있다. 가장 보편적인 기능들이 논리연산자로서 and, or, not 혹은 +, -, / 등의 기능을 제공한다. 한편 대부분 고급 사용자들을 위한 검색 기능들을 제공하고 있는데 여기서는 위치연산이나 필드연산 기능을 제공하기도 한다. 한편 hotbot의 경우 단계연산과 유사한 기능을 제공해 주기도 함으로서 이러한 기능을 최대한 이용 함으로서 검색식의 구체화를 통한 결과의 narrow를 기대할 수 있다.


Output Sorting에 의한 구체화


Output Sorting 방식을 선택할 수 있는 기능들이 대부분의 엔진에서 제공되고 있다. 이들 중 날짜별, 주제별 소트와 달리 결과의 근접도를 최적화 하기 위한 relevancy 소트 기능이 디폴트로 제공되는 경우가 많다. relevancy는 검색어의 노출 빈도와 검색어의 위치에 따라 계량화 되는데 노출빈도 보다는 위치가 우선인 경우가 많다. 그러나 각 엔진에 따라 나름대로의 별도 기준을 가지고 있어 공통의 기준을 따르기는 불가능 하다.


한편 relevancy ranking은 단어의 물리적인 환경을 계량화 한 것으로서 이를 실질적인 정보의 내용과 연계 시키는 데는 한계가 있다. 즉"Korea"라는 단어가 많이 나온다는 것과, 그 정보가 "Korea"에 관한 정보라는 것과는 반드시 일치하지는 않는다는 것이다. 여기서 검색결과의 잡음률(noise ratio)을 고려해야 하는데 검색어의 특정성에 따라 큰 차이가 나지만 최소한 10% 이상의 노이즈를 고려하는 것이 별 무리가 없을 것이다.


지역별 :


  •  미국이 전체 정보의 70%를 차지.
  •  캐나다와 영국 등 영어 문화권의 유럽 국가
  • 한국이나 일본 등 아시아 국가 정보는 제한적으로 획득 가능
  • 남미 국가 정보의 경우 미국 사이트를 통해서 제한적으로 획득 가능
  • 아프리카나 서남아시아 등은 미국과 영국 등의 특정 단체나 기관 등의 관심에 따라 정보 제공 가능

 


공공성 정보


  • 국가의 공공정보 관리 정도에 따라서 정보 획득의 용이성이 결정
  • 미국의 경우 다양한 기관들로부터 정보를 획득
  • 정부의 정보 및 문서 관리 센터에 정보가 집중되는 경우가 있음
  • 관심 단체에서 사이트를 수집, 제공
  • 국제기구나 비영리 재단 사이트 등에서 자체 정보 제공

 


학술기관 제공 정보


  • 학교나 학과의 관심에 따른 다양한 정보
  • 리서치 펀드에 의해 수집되는 정보
  • 글로벌 정보의 접촉이 용이
  • 다양한 주제와 방대한 양의 정보
  • 산업정보의 수집 가능성

 



6. 5단계




결과의 판단과 보충검색


검색이 이루어진고 난 후 원하는 결과가 나오지 않았을 경우 부분적인 검색을 통하여 내용을 보충하거나 우회적인 방법으로 결과를 유도하는 방법을 사용하기도 한다.정보의 가치가 고객이 원하는 정보물일 때 그 가치가 있는 것처럼 검색시 많은 시간과 노력의 결과로 나온 결과물이 고객이 원하는 내용이 아닐 시에는 사실상 쓰레기에 불과할 수 있다. 검색을 행하는 사람들이 자칫 범하기 쉬운 실수는 무엇보다도 모은 정보에 대한 애착으로 불필요한 정보까지도 집착함으로써 원하는 결과물을 만들어 내는 데 방해가 되기도 하다. 검색식을 통하여 이루어진 검색결과 원하는 방향의 정보가 나오지 않을 경우 정확한 판단과 함께 이에 맞는 보충검색이 적절히 이루어져야 한다.