企业搜索引擎及其应用

企业数据每年以200%的速度增长,其中80%的数据以文件、邮件等非结构化数据存放在企业内计算机系统中的各个角落。面对这些,当万维网搜索开始束手无策的时候,无论是公司高层还是基层员工都在憧憬——e搜 到底“寻找”似乎是人类的宿命,即便是在互联网上也不例外。从万维网搜索引擎到企业级搜索引擎,人们一直在试图提高“寻找”的精确度。实际上,企业搜索引擎(Enterprise Search Engine,简称ESE)并非企业才用。政府、金融、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求。这里“企业”可以理解为“企业级”,即企业级搜索引擎。那么,在企业级搜索那里,我们的“寻找”之路又该如何进行呢?

    请问:下周的日程表在哪里?

    “下周的日程表在哪里?”在使用企业级搜索引擎时,你完全可以像和另外一个人交流一样提出这样的问题。的确,和万维网搜索引擎相比,企业搜索引擎自有它自己的特点。

    其一,处理的数据比万维网上的数据复杂。

    万维网上的数据一般都是网页形式的,而企业级用户需要搜索的数据既有万维网站点上的,也有内部网站点上的;既有网页形式的,又有各种数据库形式的,如SQL Server、Oracle数据库等;既有结构化数据,还有各种电子文件格式的非结构化数据,如Word、Excel、Lotus Notes、PDF等;既有文本形式的数据,还有多媒体形式的数据;而且,同一机构的数据还可能分布在不同的设备、不同的平台之上。

    然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。

    其二,需要严格的安全管理。

    不像万维网上的免费服务,企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要对用户、资源、权限分级管理和控制,确保系统的安全。

    其三,检索要求较高。

    作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的准确率和效率要求得却比较高。因此,需要利用各种手段来提高搜索引擎的查询准确率和效率,例如:(1)采用相关度分析和超链分析等技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息。(2)构造强大的语义网,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询。(3)用具有学习功能、可以自动完善的分类体系,对检索结果自动分类。(4)采用自然语言检索,即用自然语言中的字、词或者整个句子作为检索提问来检索。例如,你可以用“北京的天气怎么样”等这样的自然语言表达式作为检索提问式。当然,目前的自然语言检索工具(特别是中文的)还很不完善。

    其四,企业搜索引擎通常都和企业的其他IT应用有机结合。

    以搜索技术为支撑,企业搜索引擎通常与数据管理、内容管理、记录管理、竞争情报、团队协同、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知识资产的完整而又灵活的体系。知识管理对搜索引擎技术提出了更高的要求,而先进的搜索引擎技术则为知识管理提供了工具和保障。在国外,企业级搜索引擎厂商,有许多也是知识资产管理解决方案的提供商。

    谁在这样“搜”

    近年来国内信息化工作发展很快,许多单位实现了电子商务、电子政务、电子出版,建立了网站、数据库,开始进行知识管理。但大多数单位没有对资源进行整合,没有统一的检索工具有效地调用这些资源。有的单位已经意识到并开始着手解决这一问题。市场的大门已经打开。

目前国内搜索引擎厂商有两类。一类是前面讲的搜索引擎提供商,它们主要为网站提供搜索服务 例如搜我们-博客搜索,以前涉及企业级搜索服务较少;另一类是软件商,它们最初的业务主要是开发非结构化数据的检索软件,后来产品范围发展到内容管理、数字图书馆管理、知识管理、网站搜索等领域。这类厂商做企业级的服务更有基础,实际上有的厂商已开展了这方面的业务,并有成功的案例,只不过以前更多地采用“全文搜索”这一概念。

    在涉及数据库、办公自动化、企业资源管理、电子商务等方面的产品整合时,有时还涉及其他国外软件产品,这时有人更愿意选用国外的搜索引擎产品来OEM.另外,由于中文信息处理的特殊性,目前在智能检索、自然语言检索方面还没有非常成熟的产品,国外的优秀产品在中文处理技术方面也没有优势。

    2003年全球搜索引擎服务的市场为20亿美元,几年以后可能会增加到70亿美元。一个有趣的情况是,当网络发展处于低潮,许多网站搜索引擎撑不下去的时候,那些做企业搜索服务的公司却取得了长足的发展;当世界最有名的网络搜索引擎公司还在筹划如何上市时,许多做企业级服务的搜索引擎公司,如Autonomy、Convera、Inktomi、Verity等,都早已在纳斯达克上了市。这说明,搜索引擎市场的一个发展趋势和重点是满足企业级的需求。

    艾瑞市场咨询统计显示,2003年中国的搜索引擎市场达到了5.2亿元人民币,比2002年的2.3亿一年增长了127%.而今后三年内中国搜索引擎市场将每年增长60%至70%,2004年中国搜索引擎市场可达8.4亿元。人们预言2004年互联网将从“注意力经济”到“搜索力经济”,这对于互联网信息服务产业来说,又是一个难得的发展机遇。 ■

国外主要企业搜索引擎厂商 公司 概况 产品 市场覆盖 Convera 总部位于美国弗吉尼亚州。其产品RetrievalWare 8.0被评入"2003年形成趋势的产品"之一 企业搜索引擎RetrievalWare 8.0可以对200种文本、图像、声音、视频文件,以及书本式文件和结构化数据进行分类、组织和检索,并支持45种语言,支持多种操作系统。 客户有800多家,分布在33个国家。包括美国社会安全管理局、美国空军出版社、美国华纳在线、法国第5电视台、牛津大学出版社、芝加哥论坛报、美国报业协会等。 Copernic 总部位于加拿大。其产品Enterprise Search被评入"2003年形成趋势的产品"之一;产品Copernic Agent被美国《个人计算机(PC)》杂志评为最佳检索工具。 企业搜索引擎产品Enterprise Agent可以搜索多种格式的文本和图像文件、XML数据库,并支持多语言平台。 用户有里昂信贷银行瑞士分行、苏黎世瑞士联邦理工学院、美国宇航和海上作战系统指挥部(SPAWAR),以及名列"世界500强"的科学应用国际公司(SPIC)等。 Hummingbird 总部位于加拿大多伦多,致力于信息和知识资产管理的解决方案。其产品Enterprise 5.1被评入"2003年形成趋势的产品"之一。 企业搜索引擎Hummingbird SearchServer可以搜索多种格式的文本和图像文件、XML数据库、关系数据库;支持多语言平台(包括中文);可以使用模糊检索、相关检索和自然语言检索,支持对检索结果的动态分类。 Hummingbird的客户包括90%的"世界500强"企业,以及许多政府、军事、商业、教育机构。 Verity 总部位于美国加州,致力于知识资产和投资的管理。其产品Ultraseek 5.1被评入"2003年形成趋势的产品"之一。 企业级搜索引擎K2 Enterprise包括搜索、分类、推荐等多个模块,可以同时索引、检索各种磁盘文件、网页和关系数据库的内容。 Verity在全世界有3500个客户,包括大多数"世界500强"企业、许多著名IT公司、政府和公共机构,如美国白宫、国会图书馆、中央情报局,IBM公司、SAP公司、西门子公司、Sybase公司等。