面向问答系统的实体识别与分类研究

被引量 : 2次 | 上传用户:willa81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是信息检索的高级形式,也是该领域的研究重点和热点。它是综合的技术处理系统,其设计与开发需要分词、词法分析、检索、实体识别、答案抽取等几个方面的技术支撑。其中,实体的识别与标注是问答系统的关键技术之一,直接关系到问句类型的判定和答案的抽取。问答系统中问句类型的判定与实体的识别紧密相关。根据具体的需要,问题的类型有不同的分法,一般情况下,事实类型问题总是涉及人、时间、地点、数量等项,而对于某一种类型还可以分为不同的层次,如地点下可以细分为国家、省、市、山、河、湖泊等。本文面向问答系统,针对其涉及实体的层次性和多类性,研究实体识别与分类方法,主要工作为:1.通过对通用领域问答系统的问题分类和实体分类体系的研究,本文在此基础上提出一种基于规则和统计的实体识别与分类方法,主要结合了实体分类词典和条件随机场算法。2.本文进行了基于实体分类词典的已登录词识别研究,通过中文Wiki百科开放数据库等途径得到包含近三十万词条的面向QA的实体分类词典,词典在内存中采用索引树的形式存放,并利用该词典进行已登录词的识别和分类,提高了实体识别与分类的效果。3.本文提出一种基于条件随机场的两阶段命名实体识别方法,在封闭测试中,两阶段F-值为86.30%,与一阶段的F-值88.01%相比,在结果上相差1.5个百分点,但在时间复杂度上可以降低80%左右。4.本文对基于条件随机场的中文组织机构名识别的进行了进一步的研究,在特征选取方面,将语言学特征与词语概念特征进行了有效的融合,同时,对字模型和词模型在选取不同特征情况下分别进行比较实验,对各方法的结果分析表明,结果之间存在互补差异性,融合模型将取得比单一模型更好的结果。本文的方法为多类性和层次性实体的识别做了初步的尝试,取得了一定的结果。相信随着中文命名实体识别技术的不断发展,实体识别的分类效果将会获得更大的提高。
其他文献
2018年11月15日,东方锅炉首台国内直径最大的鲁奇(Lurgi)型甲醇合成反应器在德阳制造基地辅机容器车间制造完工并顺利装车发往用户现场。甲醇合成反应器是煤化工装置中最重要
开展“不忘初心、牢记使命”主题教育,是以习近平同志为核心的党中央统揽伟大斗争、伟大工程、伟大事业、伟大梦想作出的重大战略部署,对于我们党不断进行自我革命,团结带领人
报纸
本文从产业结构偏离度的角度分析武汉市1981—2003年度产业结构效益的演变轨迹,建立三次方曲线的时序动态分析模型,并利用该模型对武汉市2004—2008年产业结构偏离度的发展趋
一种以造纸方式生产的、用于摩托车油浸离合器中的牌号为HZ-915的纸基摩擦材料已由杭州汽车摩擦材料研究所研制成功。经两年多的试制,于今年3月由杭州市机械局在杭州通过了
古典和新古典经济学家们认为,完全竞争市场上理性行为主体的活动不会引致股市泡沫。而当股票市场上的投资主体中有一部分乃至大部分是非理性的时候,就会出现股市泡沫。从经济
<正> 海盐生产是单一产品的大量生产,露天作业,季节性强,计划年度内分为有产品期(四至九月)和无产品期(一至三月、十至十二月),在有产品期的月份之间,产量也高低悬殊。根据这
在2018年年底的中央城市工作会议上,“坚持人民城市为人民”成为会议的亮点。打造以生态、文化和生活质量为标准的“文化型城市群”亦成为长三角城市群的发展目标。而首届“长
报纸
巴赫金哲学上的思索结果通过文论形式来表达,在面对现代哲学以来所形成的文化世界和生活世界分裂的情形时,他想以作为具体历史中活生生存在的独一无二的别人无法替代的个人必
艾伟是一位二十世纪末登上文坛的新秀小说家。面对上世纪九十年代以来“文学就是个人情感的表达”、“写作就是生产”等呼声不断,文学越来越陷入到经济附属品位置的社会语境,
担保似乎是一个小问题。但从风险管理的角度看,稍有不慎则可能酿成系统性的风险,对于金融体系安全与稳健运行有着重大的影响,因而必须予以高度重视。一方面,担保涉及担保品提