企业搜索引擎的发展现状和前景

  1、企业搜索引擎应企业知识管理之需而生
  目前像新华通讯社这样的知识型组织,其信息管理应用服务系统担负着采集、发布、管理各类文字及图片信息的重大任务。其采集的信息涉及政治、外交、经济、文教、科技、法律等各个领域。目前,其多媒体数据库中已经存储了数千万条多媒体信息,数据容量接近8T,内容涵盖中、英、法、西、阿、俄等9大主流语种。如何能够快速检索到所需要的有用信息呢?      
  如今类似新华社这样需求的用户越来越多,根据统计,企业数据每年以200% 的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落。而且这些数据总量远远超过了互联网信息的总量。企业发布到互联网的信息只占到信息量的1%——2%,而98%以上的信息是存储在企业内部的。因此,非结构化信息的管理是企业信息资源管理的核心。这种非结构化数据正以每三个月增长一倍的速度膨涨[1]。
  如何方便,快捷,安全地获取企业内部的信息内容,造就了一个新的也是非常传统的应用——企业搜索引擎。企业搜索就是为企业内外部各类非结构化数据处理提供的一个综合应用平台层,将各类数据信息与用户的需求直接连接,而无须用户了解其间的任何过程信息。对于用户来说,使用企业搜索就如同看电视一样简单,只要告诉它你想看什么,它即会立即返回你需要的任何内容,以你最希望看到的方式展示出来。   正是看到互联网搜索引擎的巨大成功以及未来企业搜索引擎的巨大市场空间,目前各大IT巨头都纷纷切入这一领域,并推出了相应的软件产品和技术。例如,Google的专用搜索设备不断出新,并推出了企业桌面搜索引擎;百度早在2000 年就推出了针对企业搜索应用的网事通产品系列,Yahoo通过合作与并购的方式连连出招;传统的互联网搜索引擎厂商纷纷向企业搜索引擎市场发力。IBM 也于2005年5月宣布推出其企业搜索引擎技术——WebSphere II O m n i F i n d V e r s i o n 8 . 2 ;Microsoft 宣布将与Longhorn 同步推出搜索产品。另外,以内容管理起家的厂商也纷纷将企业搜索引擎作为重点,例如 T R S 不断升级其企业级搜索技术, Autonomy宣布将与中国网通合作在国内推出智能搜索引擎。一时间企业级搜索技术成为目前市场上抢眼的热点......
  2、企业搜索引擎与互联网搜索引擎的异同
  企业搜索引擎(Enterprise Search  Engine,简称ESE)可以理解为“企业级”搜索引擎,但其应用领域并非指单纯的企业,政府、教育、科研、媒体、医疗、军队、安全部门都有类似的应用需求。企业搜索引擎工具与互联网搜索引擎的核心技术基本相同,如采集、检索等;不同之处在于企业搜索对相关核心技术的要求更高,如采集的效率更快,全面性更强,深度更深,而且能够定向定量采集;检索则更加注重个性化检索,以信息内容为核心的相关度排序方式、个性化推送,甚至还包括自动分类、聚类、语义分析等对信息的组织和有序化技术。但企业搜索并不是简单的将互联网搜索技术拿到企业内部来用,而是对企业内外部数据的高效获取和有效组织的技术和过程,它不仅仅包括互联网搜索的相关技术,还包括一系列对于非结构化数据的组织、分析和安全管理技术等。
  3、企业搜索的技术流派
  企业搜索引擎从技术的走向来看,基本上可以分成三种流派:      
  3.1 数据库厂商在自身的关系型数据库中增强检索服务能力
  例如,I B M 刚刚推出的 W e b S p h e r e I n f o r m a t i o n I n t e g r a t o r OmniFind Version 8.2是一个包含了可提供各种技术的信息集成中间件,通过企业搜索、联网、转型、数据布置(包括复制与缓存)和数据事件发布等技术的综合利用,使公司能够实时、综合地访问企业中及企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信息[2]。
  3.2 传统的内容管理厂商针对企业搜索引擎服务,提出了企业搜索平台(Enterprise Search    Platform,简称ESP)的提法
  这一“技术流派”的支持者以国内的TRS 为代表,还有国外的Autonomy 以及Verity等公司。例如,TRS 公司推出的企业搜索引擎解决方案,利用TRS自主开发的 Databse Server 作为企业搜索引擎服务的平台。辅助以各种数据索引工具,再配套以数据内容分发服务模块,构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企业搜索引擎服务。而Autonomy 推出的新型搜索工具Blinkx,可以提供类似“模糊搜索”或 “语义搜索”的功能。该系统经过“学习” 积累了一定“经验”后,可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外,Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式[3]。
  3.3 传统的互联网厂商如Google、百度等将互联网搜索引擎技术延续到企业搜索引擎市场中
  百度企业软件是以实时大规模信息检索技术和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列,并已经为国内几百家企业和政府提供了解决方案。Google公司推出新桌面搜索工具(GoogleDesktop),目标直指微软公司以及Computer、AskJeeves和AOL等其他公司已发布以及预期发布的桌面搜索产品。G o o g l e D e s k t o p 使用户可以搜索 MicrosoftOutlook 和Outlook Express 中的电子邮件、AOLInstantMessenger中的聊天内容以及微软IE中查看的网页。它还帮助用户搜索纯文本、MicrosoftWord、Excel 和PowerPoint 文件以及其它内容。 2005年5月31日 ,Google与IBM协作推出了Google企业桌面搜索(GoogleDesktopSearchfor Enterprise)。这是一个免费下载的应用,Google企业桌面搜索添加了新的企业级控制功能,并能够搜索IBM  Lotus Notes消息的全文。Google企业桌面搜索可以提供高质量搜索结果、一站式搜索、无成本部署和一系列专为满足公司环境需求而设计的新功能[4]。
  4、企业搜索引擎的典型应用
  企业搜索引擎技术在各个领域都将大有用武之地,例如,在电子政务领域,企业搜索引擎技术应用于打破政府各部门和系统的信息孤岛,形成一站式的对内或对外的服务;在企业里,企业搜索引擎技术在知识管理、决策支持和竞争情报等方面需求也很大。在信息资源密集的传媒、图书馆、档案馆和资讯机构中,企业搜索引擎技术已成为业务支撑技术,以聚合、发掘和放大其信息资源的价值。
  4.1 企业搜索引擎技术应用最大的领域是政府、企业网络系统
  目前,企业搜索引擎技术应用最大的领域还是政府、企业网络系统以及各类组织机构的内外网,包括网站内搜索、行业或者内网专网垂直搜索、电子商务搜索、数据库检索以及对组织中存在的包括互联网信息、内部网络信息、文档信息、数据库、电子邮件等各种形式信息进行统一搜索获取。例如,杭州市政府网站门户建设采用了百度的网事通产品,实现了站内信息检索,解决了网站内容信息采集以及处理的问题。已建成的全国公安业务应用系统、数据库都已连入网内,通过采用TRS搜索引擎平台建立公安搜索引擎系统,有效提高了信息资源整合组织和利用的效率,为公安部和各地公安部门在公安网上查找相关应用系统的定位信息提供服务。目前公安信息网已建立了数千个网站,网站上发布的各类网页文件已达数百万个。
  4.2 企业竞争情报系统的应用
  目前市场竞争激烈,企业必须对市场环境变化进行快速响应,竞争情报日趋重要。全球500 强企业90% 以上已经建立较为完善的竞争情报系统,几乎所有企业都设有专门部门负责竞争情报的采集和管理。因此,目前企业竞争情报系统已成为企业搜索引擎技术的另一大热门应用领域。例如,海尔集团采用了百度的竞争情报系统,以前需要大量员工整天做信息收集和整理工作,现在通过这套系统完成只需要不到三个小时,信息采集的效率提高了十几倍。 目前IBM 的企业搜索引擎技术与门户等解决方案相结合,为用户提供完整的解决方案。例如在某移动门户搜索引擎服务的系统建设中,实现了对包括办公自动化数据、论坛数据、内容管理系统数据的整合,通过整合,实现统一的检索入口,实现统一的Portal服务,不同用户可以根据自己的权限进行浏览和检索服务。
  5、企业搜索引擎市场仍待培育
  尽管企业搜索引擎技术已经成为厂商的一个新亮点,但目前仍是一个厂商驱动的市场,一方面企业搜索引擎的技术还在不断发展完善之中,例如,针对企业应用的智能化搜索技术、针对音频、视频和图片的搜索技术目前还不是很成熟;另外在搜索结果的个性化展现方面还需进一步提升。信息搜索技术有四个方向:关键字搜索,模式识别,语义分析,神经网络。目前关键字搜索技术已经比较成熟,大部分厂商采用的是关键字识别技术,而在其它几个领域仍处于研发和测试阶段。而主打智能搜索技术的Autonomy公司,据称在商用搜索市场占55%以上的份额,但目前其汉化版本仍在测试和完善之中[5]。
  企业搜索市场目前还不是很成熟,很多用户还处于认知阶段;客户对于信息资源的利用重视程度还不够。例如目前国内用户在应用中,首先面临着信息资源建设的问题,各类信息资源尚需要不断的建设和整合。因此很多用户目前的关注点还是在信息资源的建设和整合方面,并希望在信息资源建设完善之后再采用信息搜索方案。但专业人士认为,信息资源建设和信息资源搜索应该同步进行,企业可采用企业搜索引擎技术整合信息资源并提供服务,即把企业搜索引擎技术引入信息资源管理,因为寄期望一揽子解决整体信息资源是不现实的,随着发展会有很多预想不到的问题出现,而且见效也慢。同时,这种搜索模式也符合信息资源逐步建设的需要,在整合新资源的同时,对原有的系统影响很小,而且可以保护原有投资。