基于《知网》的文本相似度研究

来源 :河北工业大学 | 被引量 : 4次 | 上传用户:wanghua8503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重要文档whole和glossary,并且分析了《知网》的特有概念——“义原”,这也是本文进行深入研究的重点以及基础;其次,分析了进行文本相似度计算的过程,本文计算相似度的基本思想是从小范围内的具体的相似度逐步扩展到大的范围的相似度的计算;再次,针对各个级别已经存在的进行相似度计算的方法分析了其不足,并且在前人的基础上进行了改进;最后,根据各个层次的有针对性的实验结果,对基于《知网》的相似度计算方法的性能进行了分析,证明了本文方法的有效性。具体来说,本文在文本相似度研究的过程中,所做出的主要工作以及取得的成果如下所示:(一)深入研究了本文的研究对象《知网》的结构,指出其重要概念“义原”是以森林的结构形式存在的,尤其对“义原”的作用进行了重点分析,为下一步的词语相似度计算打下基础。(二)在义原相似度计算层面本文考虑进了义原树的深度的因素,同时在词语相似度计算层面在前人的基础上加入了主要义原对次要义原的抑制作用的因素,并且在此基础上进行了句子相似度的计算的研究,并且分析了其相对于以往的相似度计算的方法的合理性。这部分的实现主要是依靠《知网》的词语库进行分词,然后依照词性进行分类,按照句子与句子之间相同词性进行相似度计算,最后进行整合。此部分的实验相对于前人的使用较为广泛的的方法在召回率和准确率都有了大幅度的提高,借此证明了本文方法其有效性。(三)在段落或者是文本方面,是根据标点符号进行分句,在本文小范围的相似度计算的基础上进行大范围的句子相似度整体的计算,再次体现了本文的基本思想。最后部分是以本文的方法同已有的方法进行实验方面的对比,对于经典的算法和今年来的具有代表性的算法在召回率和准确率都有了1%-20%的提高。
其他文献
近年来,人脸识别技术得到了越来越广泛的应用。因此,一个有效并可行的识别算法成为人脸识别技术研究的重点。本文研究了人脸识别的鲁棒方法。其目标是在人脸数据库中存在模糊
随着无线网络通信技术的飞速发展和广泛应用,无线传感器网络不仅成为用户感知物理世界信息的一架桥梁,而且也是信息感知领域的一场革命。目前,无线传感器网络正处于从研究阶段向
压缩感知是一种新型的采样理论,打破了传统的奈奎斯特采样定理的限制,采用更有效的方式来采样信号。由于稀疏信号探索的热度,压缩感知近些年来已经获得了大量的关注。对于本
组管理协议是在网络中实现组播的重要协议,它的主要功能是在主机和路由器之间交换必要的信息,使得路由器知道在连接的网段上有哪些主机需要提供组播服务。   近几年Internet
基于机器视觉的行人检测和跟踪广泛应用于视频监控、三维重构、自主车辆导航等多个领域,对其方法的研究具有十分重要的意义。由于行人本身的一些固有属性、行人之间的遮挡、
近年来随着互联网及计算机控制技术的发展,人们的生活水平不断提高,人们对家居智能化的要求也越来越强烈。嵌入式技术和网络技术越来越深入到了人们的生活当中,人们对居住环
压缩感知,是近几年在信号处理领域出现的新颖的采样理论,该理论显示,通过采集相对较少的感兴趣的信号值就可实现稀疏的或可压缩信号的精确重建,这样就使得信息获取、存储、处理和
随着互联网技术的发展,Internet实时视频传输在远程教育领域起巨大作用,多媒体技术和网络技术在教育板块里的应用是一个热点问题。流媒体(Streaming Media)技术具有边下载边
本文主要研究了云计算环境下的访问控制技术,分析了当前云安全中遇到的用户数据安全与隐私保护的问题。在对当前研究现状进行深入学习和总结后,进行了以下的相关工作:  在复杂
设施花卉是设施农业的重要组成部分,可用来栽培对环境因素要求高的珍贵花卉品种,提高花卉种植的经济效益,处于花卉产业金字塔的顶端。花卉图像的自动分割与特征提取方法研究,