基于LDA模型的领域自动问答系统

被引量 : 0次 | 上传用户:bbaaccd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的发展,其包含的信息量不断增加,人们普遍希望能在互联网中快速地找到自己想要的信息。同时,目前搜索引擎的有效应用率不高,搜索引擎的不足仍有很多,限制着人们获取信息的效率。自动问答系统可以更智能、更快速、更准确地获取用户想查询的内容,近年来成为了国内外学者广泛研究的热点。本文以实现一个针对计算机常见故障的解决办法这一领域的自动问答系统为目标,深入探讨了自动问答系统从问题处理一直到最终给出答案的全过程。在研究过程中,发现领域分词和语义相似度的计算是自动问答系统的核心内容,相对于目前的系统需求以及研究现状,还有很多改进的地方。本文主要对这两个方面进行改进,在每一节也地改进后的结果进行了实验论证,说明改进后的确加强了检索的结果。最后设计实现了一个可以对用户提出的计算机故障相关问题自动给出解决办法的一个原型系统。首先,本文讨论了在中文分词领域常用的方法,对基于词典的分词方法、基于统计的分词方法这两个经典的方法做了深入分析,对其他方法做了简要介绍,并比较了不同的方法的特性和效果。然后提出了一个基于领域词典与词串互信息的分词方法,该方法加入了语义的信息,并考虑到领域专业词汇的特性,最后加入了词串的互信息来解决分词中的岐义问题。通过实验证明,这些改进提升了领域文本的分词性能。其次,本文对语义相似度的概念和计算原则做了简单讨论,并研究了基于编辑距离的语义相似度计算方法、基于依存关系的语义相似度计算方法以及基于语义距离和本体的相似度计算方法,同时提出了对经典相似度计算方法改进的一个新方法。新方法使用LDA模型,经过领域语料库的训练,得到一个领域相关的词一主题的分布,由于考虑了同一个主题下的词之间的语义相关性,因此计算得到的语义相似度更为可靠。最后,本文对针对计算机常见故障的解决办法这一领域的自动问答系统进行了系统设计,良好的设计使系统的框架具备了高内聚、低耦合的特性,这样可以大大减小系统的升级和后期的维护的代价。同时在Windows XP平台下,基于.NET Framework框架开发实现了这一系统的演示版本,通过实际测试,系统的运行效果良好。
其他文献
目的探讨肝病患者血清胱抑素C(CysC)的水平变化。方法检测血清肌酐浓度正常的61例慢性肝炎,22例重型肝炎,43例肝炎肝硬化,26例原发性肝癌及50例健康者(对照组)血清CysC、丙氨酸氨
<正>在中国人物画题材中,"仕女画"作为独立的一个类别,可谓异彩纷呈,创造了环肥燕瘦、风格各异的女性形象。从六朝的秀骨清像、面短而艳,到唐代的丰肥腴丽,再到宋代的端严秀
多元智能理论是世界著名教育学家、心理学家哈佛大学教授霍得华·加得纳研究提出的,对当代美国的教育界乃至世界教育界都有很大影响。他经过长久以来对心理学、生物学、教育学
仙居县旅游资源十分丰富,但在旅游资源开发中存在着不少的问题。必须要重新认识仙居县旅游资源的开发结构与层次,从政府主导、打造旅游"龙头"项目、产品促销、旅游商品的开发
目前,我国瓦楞纸箱普遍不具备如抗水、防潮、隔气等功能,不能适应冷藏、冷冻、保鲜等农产品冷链物流的要求,每年因包装不善造成的损失达10%以上,且瓦楞纸箱生产中能耗高,污染大。
我科自1993年至1996年,使用上海医科大学和上海半导体器件研究所共同研制的SW-1弱视治疗仪结合遮盖方法,对138例患弱视的儿童进行了家庭治疗,现将能坚持治疗的65例(99只眼)患者的治
两汉延续先秦讲武之风,由政府组织在全国各地的军事训练活动。汉代的军事训练活动承继前代,而又具有自己的风格。本文以《大通上孙家寨汉简释文》所载军阵训练及操典的相关内容
摘要:随着知识经济时代的到来,高新技术的发展已成为促进经济发展的主要力量,高新技术产业竞争力的水平高低决定着一个国家或地区的经济实力,发展高新技术产业、提升高新技术
目的:探讨过期妊娠的危险因素及其对孕妇和围生儿的影响,为临床进行过期妊娠高危人群的筛查和改善母婴预后提供依据。方法:2008年1月-2012年12月在遵义医学院第五附属(珠海)医