基于知网语义相似度的中文文本聚类方法研究

被引量 : 0次 | 上传用户:liaogch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识,为越来越多的研究人员所关注。本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inverse document frequency)选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了本文提出的聚类方法的有效性。
其他文献
目的探讨不同麻醉方式对老年高血压患者上腹部手术中应激反应的影响。方法选取2013年1月至2014年1月期间于我院进行上腹部手术的老年患者72例,随机分为对照组与观察组。对照
今天,我怀着无比崇敬的心情,代表长汀县委和杨成武同志的家乡人民,参加纪念杨成武同志诞辰100周年座谈会,深切缅怀杨成武同志的光辉业绩,追思学习杨成武同志的革命精神、崇高
河北省是雾霾天气的重灾区,政府对于雾霾的治理与监测越来越重视,发改委、环保、测绘、气象等有关部门对雾霾的产生、防治进行了深入的调查与研究。常规地基监测手段只能探测
西新工程以来,我国已安装了大量DF100A型短波发射机,为PSM调制方式。DF100A型短波发射机的前身是美国大陆(Continental)公司的418E/FPSM100kW短波发射机,该机型缺点是操作相
目前,我国经济社会快速发展,由此带来的土地利用活动造成的环境影响日益突出。在政策、法规、规划和计划层次开展战略环境影响评价,是实现科学发展观,走中国可持续发展的必由
存货属于企业的流动资产,是企业资产的重要组成部分。存货管理的好坏直接关系到企业的资金利用效率。目前,一般制造企业对存货管理的重要性认识不足,管理比较粗放,相对于大型
随着经济全球化和一体化的发展,食品贸易已经从国内领域扩展到了国际领域。乌拉圭回合谈判的结束和《农业协定》的达成,为包括食品在内的农产品贸易自由化提供了充分的法律依
酸腐病是柑橘贮运中最常见、最难防治的病害之一,由此带来的损失也是巨大的。但目前,国内外对酸腐病害的侵染机制及生物防治研究甚少,因而开展柑橘G citri-aurantii侵染规律
在分析现有SA516 Gr.70技术要求的基础上,着重分析了标准要求与用户要求的差异性,并针对用户的低温和长时间的焊后热处理(PWHT)特殊要求,分析了成分和工艺对性能的影响因素,
本文主要研究在“博洛尼亚进程”的影响下,哈萨克斯坦共和国高等教育的发展情况。文章主要以“博洛尼亚进程”提出的跨境交流、学制统一为主线,论述哈萨克斯坦在以“博洛尼亚