论文部分内容阅读
在电脑普及、信息爆炸的现代社会,网络已经成为主流咨询媒介。目前,高校大学生学习、生活、娱乐之类的咨询主要通过现场、电话咨询和网络咨询等方式,而涉及到的这些问题往往具有离散、量大、重复、时间跨度长等特点。因此,如何利用互联网技术,建立科学、合理的网络问答服务体系,以此减轻老师回答重复或类似问题的工作强度,这具有重要的现实意义。这就是本文解决问题的产生源头。论文的工作主要是研究面向大学生的教学秘书问答系统,实现部分代替人工解答学生问题,给学生提供一种更方便、更快捷的解惑释疑新途径。为了提高问答准确率,论文以学生日常管理问题域为例,在相对封闭的问题域中,展开应用研究,但这些方法是可以向相关问题域进行扩展的。针对论文的教学秘书问答系统,学生可以通过普通的文本问句,向该系统发问,系统将能及时返回一个答案或明确回答可以回答的其他途径,从而能显著提高学生问题的求解效率。本文主要涉及的热点技术有自然语言处理、知识库的构建,其中自然语言处理是其核心。此处自然语言处理是指如何有效地提高前期收集到的原始文档数据的分类处理效率、如何有效地提高用户问句与问答知识库中语句的匹配率,这是本文的研究重点。论文包括以下5个部分内容:(1)研究现状综述。介绍了问答系统与问答机器人的研究现状,以及论文涉及的文本表示、基于《知网》的词语语义相似度算法以及文本相似度算法的研究现状,并分析了相关领域的文本数据特点和数据预处理方法。(2)改进文本表示方法,以此提高前期收集到的原始文档数据集的分类效率。基于文本向量空间模型,改进了该模型涉及到的特征词项权重算法idftf-。针对其仅考虑特征词项与文档之间关系,引入特征词项选择中的卡方统计值和词性因子,以此弥补原始算法忽略特征词项区分文本类别的不足,从而获得文本向量空间模型的改进模型。利用收集到的原始文档数据集进行分类验证,结果证明改进的文本表示方法是有效性的。(3)改进词语语义相似度算法,以此提高用户问句与问答知识库中语句的匹配率。系统选用基于《知网》语义词典的方法,发现现有词语语义相似度计算方法未考虑义原距离与义原深度的主次关系,对义原相似度的结果产生较大负面影响,因此,本文提出通过约束深度因素,获得义原相似度算法的改进方法。论文从理论和实验两方面对其进行了验证,结果证明该方法是有效性的。(4)进一步改进词语语义相似度算法。论文提出了以词语间第一基本义原相似度最高的概念组合为计算对象,并引入动态加权因子实现对词语语义相似度算法的改进。利用学生问题测试集和知识库中候选问题集进行文本相似度计算,实验结果证明改进的词语语义相似度算法提高了系统返回答案的准确率。(5)研制基于知识库的教学秘书问答系统。利用整理后的学生日常管理领域文本数据,并基于《知网》建立大学生日常管理的、狭窄的领域知识库,标注实例解释,并成功应用于论文的教学秘书问答系统。