书城教材教辅医学信息学
48552800000078

第78章 医学信息资源的利用(4)

17.4搜索引擎

17.4.1搜索引擎概述

随着网络日益融入人们的日常生活和工作,作为一个信息平台,网络内容不断丰富,整个网络逐渐堆积成一个前所未有的超大型信息库。因此怎样快速有效地从海量数据中找出所需的信息成为一大难题,搜索引擎正是为了解决“信息丰富、知识贫乏”的奇怪现象而出现的技术。网络搜索引擎的问世,为互联网信息资源的有效管理和利用提供了巨大的工具支持。

1)搜索引擎的基本含义

搜索引擎(Search Engines)是基于Web 平台提供网络信息检索服务的工具或系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。从用户的角度来看,它就是一个帮助人们进行信息检索的工具。

搜索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关的。搜索引擎的核心是提供网络导航服务,目前它所涉及的主题越来越广,不仅能够提供网站搜索服务,还提供新闻、网页、图片、多媒体、音频、视频、电子邮件地址、在线图书馆以及其他网络资源等服务。

2)搜索引擎的工作原理

搜索引擎是通过自动索引程序广泛搜集网络信息资源,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目录索引,并以Web 页面的形式向用户提供有关的信息资源导航、目录索引及检索界面;用户可以根据自己的信息检索需求,按照该搜索引擎的句法要求,通过检索界面输入想要查找的检索项、提问式;系统检索软件接受用户提交的检索提问后,按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等进行识别和判断后,代理检索者在数据库中查找,并对检索结果进行评估比较,按与检索结果的相关程度排序后提供给检索者。

3)搜索引擎的类型

(1)按检索内容可分为综合性搜索引擎和专业性搜索引擎

①综合性搜索引擎。它主要以Web 网页和新闻组为搜索对象,不受主题和信息类型的限制,信息覆盖范围大,适用用户广。如Google、百度、雅虎、AltaVista、搜狐、新浪、网易等均属于综合性搜索引擎。近年来,综合性搜索引擎有超大规模发展趋势,如Google 就是一个杰出的代表。

②专业搜索引擎。它是根据学科专业特点,针对某一专门领域或主题将Internet 上信息资源进行搜集、整理而成的搜索引擎,一般经过人工筛选和评价,针对性较强,适用于专业人员查找专业信息。在20世纪90年代中期,人们把数据库技术、Web 技术、传统医学信息组织的有关理论和方法有机地结合起来,以致专门用于搜索网上医学信息资源的医学专业引擎应运而生,如Medical Matrix、Medscape、CliniWeb International、Health Web、Medconnect、Mdchoice 等。

(2)按检索功能可分为全文式搜索引擎、目录索引类搜索引擎①全文式搜索引擎(full‐text search engine)。是指能够对网站的每个网页或网页中的每个单词进行查询的搜索引擎。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这种方式构成的数据库不需要人工干预,数据库庞大,搜索范围广泛,提供的信息多且全,查全率较高,但查准率偏低,缺乏清晰的层次结构,查询结果中的重复链接也较多。国外具代表性的有Google、Fast/AllTheWeb、AltaVista 等,国内着名的有百度(Baidu)。

②目录索引类搜索引擎(search index/directory)。亦称为Web 目录(Web Directory)或Web 指南(Web Guides),是利用传统的信息分类方式,采用人工干预,将各个网络站点按其内容特征逐级划分为不同主题的类目,最终组成一个树状结构的系统目录;用户检索时,只要点击其树状结构的顶层,即可逐层展开,直到查到所需信息。Yahoo 是其最早的、也是最具代表性的目录式搜索引擎。这种搜索引擎在信息采集、编排、HTML 编码等方面大多由人工编制和维护,以致其数据库收集的网站有限,查全率偏低,但查准率较高。因此有人称之为“专题查询”或“分类查询”,特别适合于那些希望了解某一方面或范围内信息但又没有明确搜索目的的用户使用。

(3)按检索范围划分为独立搜索引擎和元搜索引擎

①独立搜索引擎。也称常规搜索引擎或单一搜索引擎,它仅限在单个搜索引擎建立的数据库中进行信息查询,根据该数据库的内容反馈出相应的检索信息或链接站点,其查询的语言及规则必须符合该数据库的特定要求。如目前常见的Yahoo、Infoseek、Lycos等均属于独立搜索引擎。

②元搜索引擎(metasearch engines):也称集成搜索引擎,它是建立在异地搜索引擎基础上的虚拟智能整体,本身不一定建立网络信息索引数据库。检索时,用户通过统一的检索界面,可同时链接多个或多种独立搜索引擎进行查询,将检索结果作出相关度排序后显示给用户。元搜索引擎对用户输入的检索词有两种处理方式,一种是并行处理,即同时将检索词传送给多个独立搜索引擎进行搜索;另一种是串行处理,即依次将检索词传送给多个独立搜索引擎进行搜索。二者的共同缺点是查询时间长。但近年来,元搜索引擎试图在改进用户界面、扩大搜索范围、消除重复信息等方面的努力越来越受到人们的关注。

典型的元搜索引擎有metasearch、metacrawler、digisearch 等。

17.4.2Internet 常用搜索引擎及其使用

Google(http ://www.google.com)

Google 是由英文单词googol 变化而来,“googol”是美国数学家Edward Kasner 的侄儿Milton Sirotta 创造的一个词,表示1后边带有100个零的巨大数字,隐喻着Google 公司试图征服因特网上无穷无尽信息资料的雄心壮志。Google 由美国Stanford 大学计算机科学系的Larry Page和Sergey Brine 博士于1998年5月创建,以其强大的功能、丰富的资源赢得了越来越多的用户。

Google 是目前世界上最优秀的搜索引擎,每天使用88种语言回答超过2亿个搜索请求,索引的网页超过了30亿。在信息检索中它可以搜索万维网(WWW)上的Web 页、新闻、讨论、产品、图形、声频或视频等资料。其特点是搜索速度很快,同时由于它维护了一个含时间变量的数据库,从而保证所查询的信息是处于最新的状态。

Google 富于创新的搜索技术和典雅的用户界面设计使其从当今的第一代搜索引擎中脱颖而出。Google 主页简洁明晰,检索框上栏设有网站(Web)、图像(Images)、地图(Maps)、新闻(News)以及更多网上论坛(Groups)、视频(Video)、图书(Books)、照片(Photos)、文献(Documents)等选项,便于用户直接按其所需进行检索。

1)关键词检索

(1)基本检索(Google Search):在主页检索框内直接输入检索词后,即可检出所需相关网站,且每个搜索结果都包含从该网页抽出的一段摘要,提供了搜索关键词在网页中的上下文。Google 检索不仅简洁方便,而且严谨细致,可帮助用户找到最重要、最相关的信息。

值得一提的还有Google 的“手气不错”设置,单击该按钮后,系统将检出Google 推荐的最佳相关网站,用户完全看不到其他的搜索结果。使用“手气不错”检索时,系统用于搜索网页的时间较少,而用于检查网页的时间较多。例如,要查找Stanford 大学的主页,只需在搜索字段中输入“Stanford”后,Google 将直接带您进入Stanford 大学的主页:www.

stanford.edu。

(2)高级检索(Advanced Search):Google 高级检索界面设置了10多个选项,读者只需按其显示的菜单提示即可完成检索。其内容包括:

①Find web pages that have 爥:搜索结果限定。

②But don摧t show pages that have 爥:希望排除的字词,相当于使用逻辑not。

③Need more tools :检索中需要选择的工具。

④Date,usage rights,numeric range,and more :检索中的可选工具。

⑤Topic‐specific search engines from Google :特定主题检索。

在Google 搜索关键词的结果页面上,不仅显示查询结果的数量、搜索时间等,还将检索结果按其相关程度顺序显示,包括网站分类目录、网页标题、网络地址、网页摘要及其网页文本的大小,其中被检字串还用红色或醒目的高亮字符显示,以方便阅读。

此外,Google 的一些特殊功能诸如网页快照(Cached)、类似网页(Similar Pages)、查找PDF 文件等也在其结果页面上予以体现。

2)分类检索

Google 的网页目录收录了150多万个网站的网页。这些网页目录以先进的网络搜索技术为基础,由“网页级别”进行技术分析,将查询到的网页依照其重要性程度的不同顺序排列出来。同时,在网页目录内也能享受“Google 搜索”的功能,即可以选择通过Google 的搜索引擎进行语词检索。在主页中点击“more”下的网页目录,即进入分类目录的检索界面。用户在网页目录中通过逐层点击即可查询所需内容。

3)图像检索

要使用图像检索,只需在主页上点击“图像(Images)”按钮,即进入图像检索界面。使用Google 图像检索可以搜索超过3.9亿个图像、照片信息。用户在检索框内输入检索词后回车或点击“Google 搜索”按钮,即可看到以缩略图形式排列的检索结果。单击要查看图片的缩略图,就会看到放大的图像,还可以看到原始图像所在的页面。

图像检索还提供高级检索界面,可对查询页面、图像大小、图像类型、图像颜色及网域等内容进行限定检索。检索结果可采用gif、jpg、pdf 等格式下载,并有相关网页的链接。