论文部分内容阅读
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,网络资源内容多样,人们往往不能有效的获取、利用所需的网络知识资源。为了更好的利用网络知识资源,需要应用更加自动化、智能化的数据挖掘、信息提取方法。Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据。本文主要对网络知识资源的表示及其相关的命名实体识别展开了深入的研究,首先对网络知识资源的表示和领域命名实体识别的基本概念和理论进行了归纳,分析了目前最为流行的向量空间模型与深度学习架构的词向量。在此基础上,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示方法,并在算法知识领域内进行实验检验。论文主要在以下几个方面展开了研究和探索:首先,在调研了常见文本表示方法的基础上,指出了最流行的文本表示方法向量空间模型的局限性,进而利用命名实体和词向量对文本深层语法、语义挖掘的特点,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示学习模型。其次,作为本文所提出模型框架的第一部分,针对算法知识领域,展开命名实体识别研究与实验。进行了Web文档爬取、预处理和标记语料等工作,完成了算法知识语料库的建设,并以条件随机场为主要算法,融合规则、词典和统计方法于一体构建模型,针对算法知识和网络解题报告的特点,选取相关特征,生成特征模板,利用开源工具CRF++在算法知识语料库上完成了训练过程,得到算法知识实体标注器。然后,作为本文所提出模型框架的第二部分,在算法知识领域语料上进行了词向量模型的训练,结合第一部分的命名实体结果,获得了网络知识资源的向量表示,并对这种向量表示进行了应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示网络知识资源的这种深层表示方法在这些任务上有着不错的效果。最后,本文对以上两步的实验结果进行了讨论分析。确立了下一步改进的目标并对未来研究进行了展望。