论文部分内容阅读
NetworkEducationalResourceManagementSystem(NERMS)项目是由吉林省科委立项、吉林大学计算机科学与技术学院知识工程实验室承建的省级重大大中型项目。NERMS的主要目标是对繁多的网络教学资源进行有效的组织和管理,以便于网络教学资源的高效共享和获取。由于NERMS项目要求为NERMS系统的用户提供智能答疑的服务,本文开展了关于智能答疑系统的研究。
智能答疑系统能通过友好的交互接口和问题逻辑推理部件接受和理解用户的问题,并根据一定计算方法和推理搜索已有的知识库和信息库找到问题的可能答案或相应资源,找到的信息通过答案的解释部件呈现给用户尽可能简单、明了的可能的答案和答案信息;系统还支持多种问题求解途径包括提供具有自动特征的人际交互渠道;该系统的知识库和信息库有自动学习和更新的能力;系统同时提供与答疑行为相关的数据的计算和统计功能,从而优化系统知识库和信息库的结构以及提供有关数据输出。
智能答疑系统是模拟知识领域的专家,对于用户提出的问题能够自动地给出准确的答案。智能答疑系统常用的技术主要有数据挖掘、人工智能、自然语言理解等,本文主要对基于自然语言理解的智能答疑系统同进行了详细的研究。具体是利用LSA(LatentSematicAnalysis深层次语义分析)来实现自然语言的理解。
在自然语言理解过程中,需要一个有力的方法和理论来处理大量的词汇和文档信息,而LSA恰好是一个比较理想的方法。利用LSA可以很方便地精确地计算出词与词、词与文档、文档与文档间的相似度,根据相似度来揭示它们潜在的联系,从而实现自然语言的处理和理解。
LSA是一个将文档内容描述为一个高维的基于很大文本集的语义空间的统计技术。在对用户进行智能答疑的过程中,我们在语义空间中分析问题,从而得到问题向量,计算问题向量与文档向量的相似度,在答案库中找到与问题匹配的答案。建立语义空间是进行向量相似度计算的基础,初始的空间是根据词和文档的关系建立起来的。对所有的文档进行分词,得到包含在文档中的全部的词及词的数量,按照词和文档的数量建立起来初始的语义空间。对原始语义空间进行SVD分解得到两个空间:一个表示词的语义空间,一个表示文档的语义空间。相似度计算过程中的所有计算都是基于这两个语义空间来进行的,其中用到了SVD方法和理论。
SVD(SingularValueDecomposition奇异值分解)方法是一个矩阵线性分解的常用方法,是一个特征值与特征向量分析的形式。SVD是一个因子分析的形式,它构造一个n维的抽象语义空间,在这个语义空间中每一个原始的词和原始的文档或者任意一个新的文档都被表示为语义空间中的向量。SVD分解根据矩阵的运算计算出矩阵的奇异值,然后根据奇异值计算出矩阵的两个奇异矩阵,将矩阵分解为三个矩阵的乘积形式。SVD方法为LSA提供了计算的基础,使得LSA能更精确地计算出问题和答案的相似度,从而找到准确的答案。
LSA是用于信息获取(IR)领域的主要空间向量方法中的一个,而且对LSA的理论研究和方法的实际应用仍然需要深入的进行。这些研究将用于完善智能答疑系统,使智能答疑系统能更好的用于NERMS系统中,为用户提供准确的答案。