论文部分内容阅读
随着互联网的飞速发展,互联网已经成为信息社会的知识载体。互联网上汇集了大量的文本,为了获取其中的知识,文本信息的自动处理技术显得十分重要,命名实体识别(NER)是文本信息处理的一个重要的研究方向。其中命名实体是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名以及专有名词等,组织机构名是其中识别的一部分,也是识别难度最大的一部分。遗憾的是,即使识别出命名实体以后,同名异义、异名同义等问题又带来新的挑战。为了能够识别出异名同义的组织机构名,本文在识别的基础上,进一步对命名实体消歧的结果进行优化,命名实体消歧就是对不同语境下的命名实体识别出正确的词义。因此,本文聚焦于研究命名实体识别及对命名实体消歧结果的优化。目前,大量的工作已经对命名实体识别和命名实体消歧技术进行了深入的研究,虽然在准确率上有所提高,但是还是存在着以下问题:1)命名实体识别是首要环节,识别出现问题将会影响后期的消歧结果,在识别过程中,存在着对特征模版重要性的忽视;2)命名实体之间存在着大量的缩写词,由于缩写词构词规律复杂,随意性强,所以缩写词的识别相对困难;3)命名实体消歧目前考虑的只是上下文之间的关系,没有考虑命名实体内部的关系。如果只考虑上下文,而忽视命名实体间的关系的话,这将对消歧的准确率有一定的影响。对此,本文从命名实体识别方面入手,提高识别的准确率,再进一步实现对异名同义命名实体消歧结果的优化。本文的具体工作和成果包括:首先,在已有条件随机场方法的基础上,本文提出了改进条件随机场的方法(ICRF)。针对一般识别算法,对特征模版忽视的问题,本文加大对特征模版的重视程度。在识别出的组织机构名全称中,对超过阀值的识别结果,加入了改进特征模版进行识别,从而提高了识别的准确率,并通过实验表明本文方法的有效性。其次,在组织机构名简称识别过程中,本文提出了基于规则与语义编辑距离的简称识别方法。在已有全称数据集的基础上,本文通过对简称的识别规则进行定义,识别出机构名的简称;对于已经识别出的组织机构名中,我们通过语义编辑距离的方法,识别出全称与简称对,提高了识别组织机构名的准确率,从而在前期奠定很好的基础并且通过实验证明,本文的方法与经典的方法相比,准确率有大大地提高。最后,在已有全称与简称识别的基础上,本文提出了基于简称与全称的命名实体消歧算法。应用之前已有的命名实体消歧算法,加入简称与全称对的识别方法,大大地提高了命名实体消歧中异名同义消歧的准确率,节省了识别的时间,从而解决了只考虑上下文特征而没有考虑命名实体间特征的问题。