中文问答系统关键技术研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:lshel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,信息搜索成为人们的迫切需求,以百度搜狐为代表的搜索引擎虽然便利,但专业性不足。为更快捷、准确地获取信息,特别是专业性较强的信息,问答系统作为一种新的信息检索方式被提出,尤其是问答系统可获取比通用搜索引擎更专业的信息使它成为自然语言处理领域的一大研究热点。中文问答系统可让用户以自然语言提问,系统经分词、词性标注、依存句法分析、语义计算等处理返回对应的答案。其工作表现取决于分词系统、词性标注、依存句法分析、相关语义计算等组件的性能。为提高现有问答系统的准确率,本文针对现有基于神经网络的中文分词系统、基于概率模型的词性标注、基于词频分布特征的语义计算模型中存在的不足逐一进行改进。本文主要工作如下:(1)提出一种新的集成学习分词算法,针对现有的分词算法对新词发现处理能力的不足,集成神经网络、互信息和邻接熵对语料文本进行分词,利用互信息、邻接熵对新词的有效识别,对神经网络的分词结果进行修正。实验表明,新的分词算法能有效提高分词准确率。(2)提出一种基于优化概率模型的词性标注算法,将HMM模型参数估计简化为多元函数描述的系统优化问题,结合改进的遗传算法实现HMM模型参数的优化估计。将改进的HMM模型结合维特比算法用于词性标注,实现了词性标注的优化计算。实验表明,算法能较准确的实现词性标注。(3)提出一种基于词频TF(Term Frequency)、逆文档词频IDF(Inverse Document Frequency)、类别信息增益IG(Information Gain)及潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)的语义计算模型——TF-IDF-IG-LDA;采用Gensim计算词向量的语义相关信息RI(Relevant Information)得到语义相关度;并根据相似度检索分类文档得到问题答案所在的文本。实验结果表明:TF-IDF-IG-LDA模型相对TF-IDF、TF-IDF-IG具有更高的准确性。
其他文献
域自适应学习是当前机器学习和模式识别领域一个研究热点,随着深度学习研究的不断进步,人工手选特征的时代即将结束。深度学习可以以最佳的方式自动从原始数据中提取到具有代
当前我国经济正在从高速增长阶段转化为高质量发展阶段,区域之间、城乡之间发展存在一定的差距,物质文明建设和精神文明建设、经济建设和国防建设之间存在不协调的状况,发展
机器视觉图像中的雨线、雨滴或水滴的存在,将直接影响图像背景的清晰度,对监测系统性能造成很大的影响。如何有效地去除图像中的雨线、雨滴或水滴,提高图像的质量,是需要解决
本文是基于笔者对David Johnston的作品The idea of Canada:Letters to a Nation进行的翻译所撰写的实践报告。翻译原文来源于加拿大总督为自己的国家所写的信件。展现了他一
身份认证是保护计算机系统安全的重要手段,传统身份认证方法的认证因素具有易遗忘、易泄露和易丢失等缺点,而基于鼠标行为的身份认证方法不需要额外设备,方便用于持续身份认
当前,国内外对青年科学家的培养工作极为重视,而青年科学家个体层面的学术绩效评价与预测也成为困扰科学界的一个难题。随着科学计量学的蓬勃发展,文献计量评价指标迅速兴起,同行评议制度受到到挑战,科学家个体层面的绩效评估从单一的同行评议逐渐向采用评价指标进行客观、公正、全面评价的方向发展。文献计量指标发展到现在已趋于成熟,演化为五代指标,为科研评价和绩效评估提供了扎实的理论基础,但其在科研评价中的有效性还
多视角立体(Multi-view stereo,MVS)重建是计算机视觉、图像处理等领域中一个基础又重要的研究课题,在增强现实、自动驾驶、城市规划、3D打印以及数字文物等领域发挥着至关重
近年来,半导体技术的飞速发展使得芯片内晶体管数量按几何倍数增加,在大规模高速计算平台的支持下,深度神经网络(DNN)技术取得了突飞猛进的进步。通常的DNN运算包括两个阶段,
需求预测是有效进行运营管理的重要并且必要的一步。大多决策者存在认知偏差并影响其对需求的判断。因此,本文将研究需求预测过程中的认知偏差对企业绩效的影响。本文首先考
本论文以中药小分子小檗碱、DNA和炎症标志物C反应蛋白的快速可视化和高灵敏检测为目标,构建了3种基于纳米金光学传感器的检测新方法。主要内容包括:(1)第一章,介绍了药物和生