网络知识资源深层表示学习模型研究

来源 :东华大学 | 被引量 : 4次 | 上传用户:pingguotailang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,网络资源内容多样,人们往往不能有效的获取、利用所需的网络知识资源。为了更好的利用网络知识资源,需要应用更加自动化、智能化的数据挖掘、信息提取方法。Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据。本文主要对网络知识资源的表示及其相关的命名实体识别展开了深入的研究,首先对网络知识资源的表示和领域命名实体识别的基本概念和理论进行了归纳,分析了目前最为流行的向量空间模型与深度学习架构的词向量。在此基础上,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示方法,并在算法知识领域内进行实验检验。论文主要在以下几个方面展开了研究和探索:首先,在调研了常见文本表示方法的基础上,指出了最流行的文本表示方法向量空间模型的局限性,进而利用命名实体和词向量对文本深层语法、语义挖掘的特点,提出了一种基于命名实体和词向量相结合的网络知识资源深层表示学习模型。其次,作为本文所提出模型框架的第一部分,针对算法知识领域,展开命名实体识别研究与实验。进行了Web文档爬取、预处理和标记语料等工作,完成了算法知识语料库的建设,并以条件随机场为主要算法,融合规则、词典和统计方法于一体构建模型,针对算法知识和网络解题报告的特点,选取相关特征,生成特征模板,利用开源工具CRF++在算法知识语料库上完成了训练过程,得到算法知识实体标注器。然后,作为本文所提出模型框架的第二部分,在算法知识领域语料上进行了词向量模型的训练,结合第一部分的命名实体结果,获得了网络知识资源的向量表示,并对这种向量表示进行了应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示网络知识资源的这种深层表示方法在这些任务上有着不错的效果。最后,本文对以上两步的实验结果进行了讨论分析。确立了下一步改进的目标并对未来研究进行了展望。
其他文献
结构化对等网系统通常是建立在忽视底层网络的逻辑重叠网上的虚拟网络。基于分布式哈希表技术的对等网系统把关键字映射成ID标识符并以ID标识符构建重叠网。这种设计使结构化
当面对求解一个问题的新算法的时候,我们的兴趣在于形成这样一种粗略的认识:新算法预期能有多好,对于同一个问题它比其他的算法如何。计算复杂性研究能够提供这种认识。对算
硬件容错加固技术,具有能耗、面积及复杂性线路等方面的开销,因此对于星载应用,硬件容错代价高昂。软件容错技术应运而生,其良好的灵活性、可配置性及较高的错误覆盖率,很好
由于P2P(Peer-to-Peer)组织模式能够为应用带来更高的可靠性、扩展性和高性能,这种模式已经成为互联网应用的重要组织形式。其中,P2P分布式存储系统被认为是P2P最具有前途的
随着无线传感器网络技术的飞速发展,在变化的环境中利用传感器对目标进行跟踪、分析变得更加可行。目标跟踪是无线传感器网络中的一个具有挑战性的应用,在此过程中计算量大、能
人脸识别是一个典型的图像模式分析、理解与分类计算问题,它涉及到模式识别、图像处理、计算机视觉、统计学习和认知科学等多个学科。人脸识别问题的深入研究和最终解决,可以极
随着Internet的迅速发展,网络已成为人们生活工作中不可缺少的一部分。越来越多的个人、企业、单位和组织通过Internet获取信息、知识和进行各种贸易。Internet的高并发性和
随着计算机网络的不断发展和各种接入互联网终端的广泛使用,网络和人们的生产生活关系日益紧密,因而网络安全也受到更加广泛的关注。网络协议是网络应用程序功能逻辑的核心,
随着无线通信、计算技术、微电子技术的进步,极大地推动了无线传感器网络(Wireless Sensor Network,WSN)的发展,并以其低成本、低功耗、自组织和分布式的特点带来了信息感知
随着Internet技术的普及和迅速发展,各种网络服务(云计算、电子商务、物联网、视频会议等)已经和我们的日常工作和生活紧密相连,但Internet中IGP协议路由安全可信机制还不够