基于《知网》的词语相似度计算研究及应用

被引量 : 0次 | 上传用户:guanxinpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,以数据化形式存在的文本信息已经成为计算机处理的一种重要资源。传统的信息处理技术主要以统计和文本表层特征为基础,缺乏对文本内容的语义理解,在处理效果方面的瓶颈已经成为当前信息科学需要解决的重要问题之一。词语相似度计算可以在语义层面上对描述文本内容的自然语言词语之间复杂的语义相似关系进行定量分析,为信息处理技术提供了语义分析的支持,提高了信息处理效果。因此,研究词语相似度计算具有重要的意义。本文以词语相似度计算和文本分类技术的基本理论为基础,重点研究基于《知网》的汉语词语相似度计算方法,及其在文本分类中的进一步应用。论文的主要工作如下:首先分析了目前常用的词语相似度计算方法,并对其中一种典型的基于《知网》的词语相似度计算方法进行了重点研究,同时阐述了本文的词语相似度计算评估策略。此外,对文本分类技术的分类过程、常用分类方法以及分类评估策略等知识也进行了深入的研究。提出了一种改进的基于《知网》的词语相似度计算方法。深入研究了《知网》系统,详细分析了典型方法在义原相似度计算等方面的不足。针对这些不足,结合《知网》和信息量的事物相似度理论提出了一种区分度较高的义原相似度计算方法,同时对集合相似度计算和概念相似度计算进行了优化。实验结果表明,本文方法的计算结果更为接近人工评判。提出了一种改进的基于语义内核的文本分类方法。分析了传统文本分类方法的高维特征空间、特征之间存在语义关系和文本向量稀疏问题。针对这些问题,引入了词性过滤和语义内核方法。基于语义内核方法的思想,采用本文的词语相似度计算建立语义矩阵,并重新定义内核函数,构建了一个改进的语义内核。语义内核的映射将特征之间的语义相似关系嵌入到文本向量中,提高了文本向量的语义表达能力。实验结果表明,本文方法在一定程度上提高了分类效果。
其他文献
在大面积现代化温室里将经济价值高的园艺等植物种植在富含腐殖质的生物质无土基质里进行基质栽培、养护、收获,其单位面积产量增加近百倍,这是现代生态农业发展高级阶段,也
医药大输液是我国医药行业五大重要制剂之一,是医疗机构日常必须使用的药品,在现代临床上占据十分重要的地位。但是,由于生产工艺以及封装技术的原因,在灌装过程中,大输液产品中可
物流配送是构成物流系统的基础,是物流系统的核心功能。物流配送优化是在配送的诸多环节中,从物流系统总体目标出发,运用系统理论和系统工程原理和方法,通过数学建模构建合理
喹诺酮类抗菌药的药物动力学在老年人中会有一些变化,最常见的是,由于老年人肌肉组织平均减少10%~15%,造成血药峰浓度和药时曲线下面积升高.由于老年人肌酸酐清除率下降,造成
目的:研究一种适用于电阻抗断层成像(electrical impedance tomography,EIT)系统的多电极非正常连接的实时检测方法,便于及时发现不良电极,减少因电极造成的数据损失,为EIT提供
探讨新护士长初涉护理管理工作,面临许许多多的问题、烦恼和压力时,如何迈好第一步?根据其体会,分析认为,培养自信是关键。而各方信任与支持,是建立自信的坚强后盾;立足管理角色,是建
通过工程建筑实例,结合场地实际情况分析,提出多种基础选择方案,并提出各方案的设计方法 ,同时结合工程施工,指出了基础形式中的注意事项,为设计人员后续基础设计提供科学、
进入21世纪后,我国正式迈入人口老龄化的时代,2017年我国的65岁及以上人口上升至15831万人,65岁及以上老年人所占比重从2000年的7.0%上升至2017年的11.4%,同比增长62.9%,我国老年人的增长速度总体上呈现不断加快的趋势。人口老龄化的不断加深带来了数量庞大的老年人口,养老服务的需求量持续增加,但是目前我国养老服务机构共计2.9万个,养老服务床位714.2万张,每百位老年人的床
涂料壳中黑色烧结层的形成对涂料脱落效果的影响至关重要。本研究以石英涂料为对象,运用扫描电镜(SEM)观察石英涂料壳黑色烧结层的微观形貌,通过x射线衍射(XRD)、能谱(EDS)和相图相结
兵团精神是兵团人在长期历史发展过程中所形成的独特、稳固、持久而强烈的精神体现,以热爱祖国、无私奉献、艰苦创业、开拓进取为主要内涵,是兵团高校大学生思想政治教育的重要