搜索巨鳄林奇来华斡旋 Autonomy中国布局加速

搜索巨鳄林奇来华斡旋 Autonomy中国布局加速业内人士认为,包括Google、MSN、百度在内的基于关键词搜索的厂商之所以迟迟难以在企业搜索市场打开局面,取得较大的市场份额,与关键词搜索引擎技术本身的算法局限性有关。

  7月24日凌晨,现年40岁的英国Autonomy全球CEO迈克·林奇( Mike Lynch )和公司COO安迪·康特(Andy katner)一行从英国飞抵北京国际机场。自2003年Autonomy进入中国市场以来,这还是迈克·林奇第二次来华——此前的一次是去年3月,当时由他亲自操刀,Autonomy首次在国内互联网搜索市场进行了前期部署。

  尽管Autonomy大中华区首席代表伍昕对迈克·林奇此行的计划讳莫如深,但记者从多种途径获悉,迈克·林奇此次来华,可能主要是为在企业级搜索市场进行相关投资。

  暗战企业搜索

  公开资料显示,Autonomy成立于1996年,曾先后在布鲁赛尔的EASDAQ、伦敦股票交易所和美国NASDAQ上市,但因为一向专注于企业级搜索市场,其名头远不如专注于互联网搜索的Google来得响亮,虽然自2005年11月以5亿美元完成对另一家企业搜索厂商Verity的收购后,Autonomy在企业搜索市场的份额已飙升至80%,远超排名第二的Fast及微软、Google、IBM等厂商。

  不过,有迹象表明,Autonomy已有意整个切入到第三代互联网搜索领域。2004年7月Autonomy通过其位于美国旧金山的控股公司Blinkx推出的视频搜索门户Blinkx,可视为其向互联网搜索市场延伸的试探性举措。

  不无意味的是,在Autonomy向web搜索进行外延扩张的同时,web搜索市场巨头Google、MSN等也在悄然向企业搜索市场渗透。

  自2002年推出搜索专用设备GSA起,Google就一直不断扩展其企业搜索业务线,包括推出Gmail的改良版和桌面搜索工具,以便通过捆绑不同的产品模块形成整合优势。但由于种种原因,从那时迄今,其市场份额一直徘徊于1%以下,难有突破。为此,2003年,Google高层曾就是否砍掉企业搜索业务进行过多次激辩,最后还是决定保留下来,以观后效。

  此后,Google投注到企业市场的砝码愈来愈大。今年一季度,Google先是推出了一款面向小型企业的新版Google Mini搜索工具,并在其中集成了企业版桌面搜索功能,接着又推出企业搜索设备OneBox 的升级版以及售价更高的企业级搜索工具。尽管并无革命性的技术,但凭借同业最低价和个人市场的用户口碑,Google已开始慢慢打开局面。

  与此同时,包括微软MSN、IBM在内的软件巨头也磨刀霍霍,试图在走入上升通道的企业搜索市场取一瓢饮。今年5月,在微软发布最新的企业搜索工具之后,微软首席运营官特纳在一次会议上甚至对外放话说:“企业搜索是我们的地盘,我们不会让Google夺走它。”

  而IBM,虽然没有如此张扬,却也在暗中畜势,一面打造看家搜索产品,一面则远交近攻,与Google、百度等搜索厂商展开多种合作。

  出人意料的倒是百度。就在迈克·林奇来华的前夕,百度不光一股脑砍掉了运营企业搜索业务的ES部门,还裁撤了该部门的大部分员工,从此将企业搜索从自己的扩张版图中一笔勾销。百度对外的解释是,企业软件与公司的搜索核心业务背离,且只占据很少的业务线,比例不到2%;选择撤销,是为了腾出精力发展包括竞价排名、精准广告在内的互联网搜索业务。

  有消息说,百度的部分离职员工已向Autonomy以及国内另一家企业搜索厂商TRS投递简历并接受面试,但这一消息没有得到上述两家企业的确认。

  算法之争

  业内人士认为,包括Google、MSN、百度在内的基于关键词搜索的厂商之所以迟迟难以在企业搜索市场打开局面,取得较大的市场份额,与关键词搜索引擎技术本身的算法局限性有关。

  以pagerank为代表的超链分析技术,大多基于如下假设:某个网页被链接得越多,则其重要性就越大。由于只是根据网页之间的超链关系来决定网页内容的重要程度,又只限于提取关键词而不是提取基于内容识别的概念,该算法一当面临企业级的精准搜索要求时,就显得捉襟见肘。虽然Google已试图引进其他算法来克服这一局限性,但迄今收效甚微。

  在看到pagerank的局限性以后,一些新兴的搜索公司已开始尝试更新的算法。例如Clusty,该公司通过借鉴Autonomy的模式识别技术以及自动分类等功能,可基于对概念的理解提供搜索结果的自动分类等功能。

  Autonomy的模式识别技术的理论支撑点是贝叶斯概率论和申农信息论,其核心是一个名为智能信息操作层(IDOL)的底层技术。因为不依赖于语言分析,而只是把语言当成一种符号,根据关键词的出现频率来识别不同文本在上下文环境中的模式,以此来抽取文档中的文本要素进行概念识别,因此,相比于pagerank算法,IDOL可以提供更精确的文本上下文分析和概念抽取,进而对信息进行超链接、自动聚类、自动分类、主动匹配、信息地图等自动化操作。

  搜索3.0浮现

  Google、百度等当然没有停止对核心算法的改进,不管是简单的修修补补,还是投资浩大的技术研发。

  多种证据显示,Google正准备研发包括语义搜索在内的下一代智能搜索引擎,微软也开始研发基于Web Block(网页块)而不是网页的搜索技术,而一家叫Senopy的公司则正在研究自然语言搜索引擎。

  同样研发自然语言搜索技术的还有IBM。据悉,IBM公司的研究和开发部门在UIMA平台上早已开始进行基于语言分析、知识库、问答系统、机器翻译等功能的自然语言搜索研究。

  在国内,暗中着手人工智能搜索的还包括百度、搜狗、海量科技、Aisou等。其中海量推出的digdig更声称已掌握了基于“语义数据挖掘”的中文信息处理技术,并涉足到软件、人物、图片等垂直搜索领域。不妨顺带提及的是,在2003年Autonomy进军中国之初,采用的就是海量的中文分词技术。

  伍昕告诉记者,目前通过语义分析进入第三代搜索的路径大约有三种:一种是通过真正的语法、词法分析理解文字,诸如猫狗到底是什么之类,不过到现在为止,上述努力基本上无大建树,因为语言比我们想象的要复杂得多,计算机要想完全理解语言,几乎是不可能的;还有一种是模仿人脑进行人工智能分析,但由于比起所需要的精确度,现有电脑的处理能力还远远不够,因此该方法虽然可以做到一定程度的精确搜索,但至少眼下看来还难有大成;第三种是基于概率论和信息论的模型匹配技术,即通过统计分析理解文章的核心概念及概念间的关系。

  算法之外,搜索引擎领域的另一个发展重点是对搜索结果呈现方式的处理。在美国,像Grokker、Snap这样的后起之秀即以更个性化的搜索结果分类、呈现方式等为招徕,吸引了大批忠诚用户。

  不过伍昕表示,上述以web2.0为卖点的搜索引擎仍没有走出将非结构化信息进行结构化处理的误区,其特征之一就是把每个信息都人工打上标签,依此来进行人工分类和信息聚合,这其实是吃力不讨好的一件事。因为每个文档、网页上的信息都涵盖众多,张贴一个或几个标签,不光不确切、有歧义,而且容易丢掉很多信息,于是给信息管理制造出新的难题。更好的做法应该是对文章的内容进行分析和概念提取,基于此,真正的关联、分类和聚类才成为可能。

  “互联网其实是一个语义网,Google只做到了很浅的一部分,就是通过关键词搜索把信息从一个地方搬到另一个地方,但其实这里面可以构建一个知识网,而搜索引擎应该成为这个知识网的操作系统。”伍昕说。

  促使搜索引擎成为信息操作系统,这其实一直是每一个搜索厂商的终极目标。不论是个性化搜索、社区化搜索、知识问答社区,还是人工智能、模式匹配、语义搜索,都是这一努力不可分割的一部分。尽管眼下关于第三代搜索引擎的激辩中不无喧哗的噪音,也不无误入歧途的风险,但呼声甚高的第三代搜索引擎或者搜索3.0的浮现和大面积井喷,相信只是个时间问题。