中文组织机构名与简称的识别可以通过确定其左右界来实现,通过组织机构称谓词库获得右边界,运用规则匹配以及贝叶斯概率模型决策出最有规则获取左边界,全称——简称——运用简称规则。

命名实体识别主要有:人名、地名、组织机构名、日期、时间、百分数和货币等。其中人名、地名、组织机构名是最常用到的三种。

组织机构名识别的四大难点:1、中文机构名的用词十分广泛。2、长度极其不稳定。3、含有大量其他的命名实体,其中不乏未登录的地名。4、大多数机构名称都有其简称,简称规则使得难度加大。

对中文组织机构名称的构成分析发现:机构名称通常是以X+Y 结构出现的定名型短语,其中X+表示一个或多个定语修饰词,它的词性一般为名词,形容词,动词,序数词;Y 表示机构称谓,它主要集中在“公司”,“集团”等一些名词,这些词一般情况下是特定的,有限且为数不多的,所以可以通过列举或者训练完整这样一个集合,而这个集合一旦建立,便能帮助识别机构名称的右边界。要确定机构名称的左边界,就必须确定X+的长度L,正如上文提到的中文机构名的长度极其不稳定,因此X+的长度也极其不稳定

机构名称

贝恩/人名 公司/名词

成都/地名 军区/名词 疾病/名词 预防/动词 控制/动名词 中心/名词

国家/名词 体育/名词 总局/名词 足球/名词 运动/动名词 管理/动名词 中心/名词

可采取的策略是通过对大量的语料进行分词,词性标注后,统计机构名称中定语修饰词的可能词性序列,形成规则集,并对经过分词和特征词标注初加工文档进行规则匹配,从而确定中文机构名称的左边界。

中文组织机构特征词库及规则集

组织机构称谓库:对组织机构名称的识别首先从确定组织机构名称的右边界开始,例如,通过找到“公司”,“银行”,“集团”,“企业”之类的机构称谓词,得到组织机构的在文中可能出现的位置。因此,可以通过搜集此类机构称谓,建立机构称谓库,作为识别的触发条件。

地点词库:经分析,不少机构名称是以地点开头的,比如“上海玩具厂”等,因此地点特征词对标识机构左边界有很大的帮助。

独立机构名称库
我们的方法假设是基于这样的前提:组织机构名称必须含有一个明显的机构称谓,但是在研究中发现,有大量的组织机构名称并不包含机构称谓,比如“欧佩克”,“摩托罗拉”,“毕马威”,通常这些机构是一些英译过来的组织机构名称,对此,我们在训练过程中,将其搜集形成一个独立机构名称库。

定语修饰词规则集

构造定语修饰词规则集的步骤如下:定义集合R=空
1) 对于训练语料中每一个机构名称,经过分词后得到它定语修饰词部分的每个词的词性,形成词性序列r;
2) 如果r属于R,则将R中的r 频度++,转1
3) 如果r不属于 R,,则将r 的频度置1,加入R,转1
于是可以得到了构成组织机构名称定语修饰词部分的可能规则以及各自的频率。

机构类型库
机构类型名包括“股份有限”,“开发”,“责任”等附加在机构称谓前的词,建立该词库为了辅助系统在机构简称识别时界定机构名关键字。

在识别系统的核心部分“组织机构名称识别模块”中,先通过规则匹配得到所有可能的候选规则,接着,通过贝叶斯概率模型对所有候选规则进行决策,确定最优的规则,从而最终确定组织机构名称的左边界。

中文组织机构简称特征分析,对中文组织机构简称分析发现其构成与全称之间存在如下关系:
1. 取全称中每个词的首字如:华东师范大学——华师大
2. 若全称中出现专有名词,取该专有名词,如:美国耐克公司——耐克
3. 若全称以地点开始,取地点+其他词的首字,如:上海交通大学——上海交大
4. 取全称中除地点和机构称谓的所有词的首字,如:中国南方航空公司——南方航空
5. 取全称中除地点和机构称谓的所有词的首字,如:中国南方航空公司——南航
6. 取除机构称谓其他词的首字+机构称谓,如:交通银行总部——交行总部
7. 取地点,除地点和机构称谓外的词的首字+机构后缀的末字,如:鹿特丹美术学院——鹿特丹美院