论文部分内容阅读
问答系统是信息检索的高级形式,也是该领域的研究重点和热点。它是综合的技术处理系统,其设计与开发需要分词、词法分析、检索、实体识别、答案抽取等几个方面的技术支撑。其中,实体的识别与标注是问答系统的关键技术之一,直接关系到问句类型的判定和答案的抽取。问答系统中问句类型的判定与实体的识别紧密相关。根据具体的需要,问题的类型有不同的分法,一般情况下,事实类型问题总是涉及人、时间、地点、数量等项,而对于某一种类型还可以分为不同的层次,如地点下可以细分为国家、省、市、山、河、湖泊等。本文面向问答系统,针对其涉及实体的层次性和多类性,研究实体识别与分类方法,主要工作为:1.通过对通用领域问答系统的问题分类和实体分类体系的研究,本文在此基础上提出一种基于规则和统计的实体识别与分类方法,主要结合了实体分类词典和条件随机场算法。2.本文进行了基于实体分类词典的已登录词识别研究,通过中文Wiki百科开放数据库等途径得到包含近三十万词条的面向QA的实体分类词典,词典在内存中采用索引树的形式存放,并利用该词典进行已登录词的识别和分类,提高了实体识别与分类的效果。3.本文提出一种基于条件随机场的两阶段命名实体识别方法,在封闭测试中,两阶段F-值为86.30%,与一阶段的F-值88.01%相比,在结果上相差1.5个百分点,但在时间复杂度上可以降低80%左右。4.本文对基于条件随机场的中文组织机构名识别的进行了进一步的研究,在特征选取方面,将语言学特征与词语概念特征进行了有效的融合,同时,对字模型和词模型在选取不同特征情况下分别进行比较实验,对各方法的结果分析表明,结果之间存在互补差异性,融合模型将取得比单一模型更好的结果。本文的方法为多类性和层次性实体的识别做了初步的尝试,取得了一定的结果。相信随着中文命名实体识别技术的不断发展,实体识别的分类效果将会获得更大的提高。