基于语义分析的中文精准搜索实现
“人肉搜索”与“垂直搜索”使热门的搜索引擎话题更加“热门”。热衷于此的人们一边为“人肉搜索”因着草根带来的巨大威力而欢呼,一边试图将“人肉搜索” 由网友自发行为转变为“集体有意识”的人海战术,希望籍此弥补电脑所不能达到的“精准”;这是人面对浩瀚信息的几分不得已?还是搜索技术已经图穷匕现的另 类解读呢?
与“人肉搜索”在广泛领域中的勃勃雄心不同,“垂直搜索”将视野缩小到狭窄领域,力图达到“小的就是美的”境界,通过对“关键词”的进一步细分,实现某些领域内的“精准”与“实用”,所依赖的仍然是人工分拣,比如时下流行的“酷讯”与“爱帮网”。
是否搜索引擎已经发展到必须依靠人工才能实现精准化的的地步?人工干预能否达到理想效果呢?一位名叫蒂姆西·李的国外专家指出,用户的搜索以及搜索结果的数量浩如烟海,根本不可能有足够的人力来编辑这些修改结果,有限的人力面对无限的搜索结果列表,显然无法应对。
搜索结果与海量信息之间“瓶颈”如何来解决呢?从事中文信息处理多年,我国863项目专家,HNC理论创始人黄曾阳先生指出,中文搜索只有依靠“语义分析”才能走出目前的困境。
中文,丰富之美
据黄先生介绍,目前,我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语 之间巨大的区别。我国著名的语言信息处理专家陈力为院士就曾指出:“世界的五种主要语言中,形态最丰富的是俄语,其次是德语-法语-英语-汉语(汉语是无 形态语言)。从这个顺序来看,汉语是自然语言中最高层次的语言。层次越高越要依靠语义和语域。要解决计算机处理汉语的问题,必须在语义研究上下一番功夫。 从汉语信息处理的需要看,当前急迫需要突破的是语义问题。
中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于:
一、西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才 能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。中文分词就成了计算机处理的难题。
二、汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。
三、同音字多 增加了机器识别的难度。
四、汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按‘主-谓-宾’或‘名-动-名’这一 规则,计算机可显出‘牛吃草’,也可显出‘草吃牛’。从语法格式上看,‘草吃牛’也不错,但这句话是说不通的。人依靠自己的经验可以判断,机器如何来判断 呢?
中文处理,简单之美
中文之纷繁复杂,构成了中文本身之优美、深邃。我们至今津津乐道唐诗宋词之意境深邃,遗憾那些古诗雅韵西语实难比拟。然而,信息时代,要让计 算机来理解中文,具有挑战性的技术却是要化繁为简,使之具备能够从多重选择中锁定目标的能力,实际上也就是消解“语言模糊”。中文模糊主要表现为:
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。再比如“和服”的 “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去 广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而 且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎” 还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于中文自然语言处理来说来说,分词系统中的新词识别十分重要。
消解模糊的能力成为中文自然语言处理的关键,以此获得对其准确性、智能性的评定。
语义分析,创新之美
有关专家已经意识到按照国内外普遍采用的语法分析、语法语义分析、语料统计等传统的技术路线继续搞下去,计算机永远不可能理解人类的语言。
在这样的背景下,黄先生经过8个春秋,艰苦奋斗创立了HNC(概念层次网络)理论。该理论吸收菲尔墨(fillmore)、山克 (schank)等人的有益思想的,建立了一个模拟人类语言感知过程的理论模式,具有扩散性的求异思维,鲜明的反思传统的特征,是目前中文信息处理三大流 派之一。
HNC理论彻底摆脱了传统自然语言分析模式解决问题的套路,用电脑模拟人脑感知语言的过程,从逻辑思维角度对语义进行判断,从领域、情景、背 景三方面分析得到结果,也就是说使电脑建立起人脑的概念,通过概念入手完成对语言的认知,依靠上下文、篇章来判断语言本身的含义,而非从语法、句式分析来 生硬的对语言进行理解。跳出了完全采用语法和词汇原则来理解文字信息的死循环,成功实现了计算机消除自然语言模糊特性的技术革新,建立了从语句→句群→篇 章的语义描述体系,依托概念、语言、常识及专业三大知识库,用户使用日常语言输入问题后,计算机就能够立刻对信息进行理解甄别→加工提纯→挖掘,在浩瀚的 互联网数据库中,寻找到匹配度最高的内容,给出最具价值的答案。
它的问世将使自然语言处理领域中的很多问题取得突破性进展,使机器翻译、电话翻译、人机交互、智能检索、自动文摘等各个应用领域获得实质性的重大进展。
目前,HNC理论对中文信息处理已经非常成熟,担当该理论研发与实践的北京大正研究院已经成功将其应用在了农业信息检索、机器翻译、政府机密过滤等领域。大正研究院董事长陈小盟说“在个别领域突破后,推向大规模的应用也只是个时间问题。”
未来,这种创新的基于“语义分析”技术是否成为中文搜索下一步出路呢?
与“人肉搜索”在广泛领域中的勃勃雄心不同,“垂直搜索”将视野缩小到狭窄领域,力图达到“小的就是美的”境界,通过对“关键词”的进一步细分,实现某些领域内的“精准”与“实用”,所依赖的仍然是人工分拣,比如时下流行的“酷讯”与“爱帮网”。
是否搜索引擎已经发展到必须依靠人工才能实现精准化的的地步?人工干预能否达到理想效果呢?一位名叫蒂姆西·李的国外专家指出,用户的搜索以及搜索结果的数量浩如烟海,根本不可能有足够的人力来编辑这些修改结果,有限的人力面对无限的搜索结果列表,显然无法应对。
搜索结果与海量信息之间“瓶颈”如何来解决呢?从事中文信息处理多年,我国863项目专家,HNC理论创始人黄曾阳先生指出,中文搜索只有依靠“语义分析”才能走出目前的困境。
中文,丰富之美
据黄先生介绍,目前,我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语 之间巨大的区别。我国著名的语言信息处理专家陈力为院士就曾指出:“世界的五种主要语言中,形态最丰富的是俄语,其次是德语-法语-英语-汉语(汉语是无 形态语言)。从这个顺序来看,汉语是自然语言中最高层次的语言。层次越高越要依靠语义和语域。要解决计算机处理汉语的问题,必须在语义研究上下一番功夫。 从汉语信息处理的需要看,当前急迫需要突破的是语义问题。
中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于:
一、西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才 能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来 才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。中文分词就成了计算机处理的难题。
二、汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。
三、同音字多 增加了机器识别的难度。
四、汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按‘主-谓-宾’或‘名-动-名’这一 规则,计算机可显出‘牛吃草’,也可显出‘草吃牛’。从语法格式上看,‘草吃牛’也不错,但这句话是说不通的。人依靠自己的经验可以判断,机器如何来判断 呢?
中文处理,简单之美
中文之纷繁复杂,构成了中文本身之优美、深邃。我们至今津津乐道唐诗宋词之意境深邃,遗憾那些古诗雅韵西语实难比拟。然而,信息时代,要让计 算机来理解中文,具有挑战性的技术却是要化繁为简,使之具备能够从多重选择中锁定目标的能力,实际上也就是消解“语言模糊”。中文模糊主要表现为:
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。再比如“和服”的 “化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去 广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而 且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎” 还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于中文自然语言处理来说来说,分词系统中的新词识别十分重要。
消解模糊的能力成为中文自然语言处理的关键,以此获得对其准确性、智能性的评定。
语义分析,创新之美
有关专家已经意识到按照国内外普遍采用的语法分析、语法语义分析、语料统计等传统的技术路线继续搞下去,计算机永远不可能理解人类的语言。
在这样的背景下,黄先生经过8个春秋,艰苦奋斗创立了HNC(概念层次网络)理论。该理论吸收菲尔墨(fillmore)、山克 (schank)等人的有益思想的,建立了一个模拟人类语言感知过程的理论模式,具有扩散性的求异思维,鲜明的反思传统的特征,是目前中文信息处理三大流 派之一。
HNC理论彻底摆脱了传统自然语言分析模式解决问题的套路,用电脑模拟人脑感知语言的过程,从逻辑思维角度对语义进行判断,从领域、情景、背 景三方面分析得到结果,也就是说使电脑建立起人脑的概念,通过概念入手完成对语言的认知,依靠上下文、篇章来判断语言本身的含义,而非从语法、句式分析来 生硬的对语言进行理解。跳出了完全采用语法和词汇原则来理解文字信息的死循环,成功实现了计算机消除自然语言模糊特性的技术革新,建立了从语句→句群→篇 章的语义描述体系,依托概念、语言、常识及专业三大知识库,用户使用日常语言输入问题后,计算机就能够立刻对信息进行理解甄别→加工提纯→挖掘,在浩瀚的 互联网数据库中,寻找到匹配度最高的内容,给出最具价值的答案。
它的问世将使自然语言处理领域中的很多问题取得突破性进展,使机器翻译、电话翻译、人机交互、智能检索、自动文摘等各个应用领域获得实质性的重大进展。
目前,HNC理论对中文信息处理已经非常成熟,担当该理论研发与实践的北京大正研究院已经成功将其应用在了农业信息检索、机器翻译、政府机密过滤等领域。大正研究院董事长陈小盟说“在个别领域突破后,推向大规模的应用也只是个时间问题。”
未来,这种创新的基于“语义分析”技术是否成为中文搜索下一步出路呢?