基于语义距离的文本聚类算法研究

被引量 : 0次 | 上传用户:king4978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术迅速发展的今天,人们越来越感受到了信息的冲击,而文本是信息的重要载体,人们日常生活中所接触到的信息有80%左右以文本的形式存在。信息内容和格式的多样化、复杂化,使人们无法遍历所有感兴趣的内容,而且又不存在标准的文本分类准则,所以管理收集到的文本信息成为亟待解决的问题,对于文本聚类技术的研究更显重要。现有的文本聚类方法大多采用基于VSM的关键词匹配来计算文本间相似度,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之间的联系,导至文本的相似度计算不够精确,所以本文从语义上具体分析文档,利用文本具体语义计算文本间的相似度,使得文本聚类结果更合理,主要工作及创新点有:1、以《知网》作为语义的本体,利用语义距离计算文档间相似度,把文档间相似度计算具体转化为词语间语义距离、义原间语义距离。考虑到文本聚类具体应用,本文根据《知网》描述各个词的规律,改进现有词语相似度计算方法,更有利于发现词语的相关性,适应了文本聚类的要求。2、文本聚类算法主要采用一次遍历聚类算法即最近邻聚类算法,并提出第二次聚类方法改进最近邻算法对输入次序敏感的问题。类中心方面,引入相似权重的概念,并根据权重优胜略汰候选类特征词,使得最后选择的类特征词能够代表类的主题,达到文本聚类的目的。论文最后实验语料来源于中科院的中文自然语言处理开放平台(CNLP)网站,下载了100篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与基于VSM的K-Means聚类算法进行了比较,结果证明本文所提出的基于语义距离文档聚类算法在聚类精度和召回率上都优于基于VSM的K-Means聚类算法,达到了算法改进的目的。另外基于语义距离的文档聚类结果显示它还能从语义上更加细分主题,为用户收集文本信息提供更好的导航。
其他文献
对巨玫瑰葡萄进行引种栽培,结果表明:巨玫瑰葡萄品质优、耐贮藏、抗病性强,适于无核化栽培,且可提前20d上市,适宜在余姚市推广栽培。
介绍了舍饲羊疾病的预防措施,包括加强饲养管理、加强环境卫生与消毒、定期进行免疫接种、药物预防、定期驱虫、加强检疫、发生传染病时采取果断措施、预防中毒等,以期为舍饲
运用卢谢峰(2003)编制的大学生适应性量表对陕南三所高校176名大学生的社会适应性现状进行了调查研究。结果表明:(1)陕南高校大学生社会适应性总体上呈正向趋势;(2)女生的总
阐述了科技评价的起源、概念与特点,提出当前农业科技评价存在定位不够明确、评价能力有待提高、评价指标体系存在误区等主要问题,并提出了对策,主要包括:落实科技评价相关规
美国"9.11"事件后,世界各国相继掀起了一场反恐立法活动。由于各国的反恐形势、法律文化和价值尺度不同,因而在反恐立法上出现了各自不同的特征。我国在2001年通过了《中华人
近年来,中国农产品出口增长有所放缓,尤其是一些具有绝对成本优势的农产品出口,在经历一段时间快速增长后,出现明显滑坡,以致2004年农产品对外贸易连续20年顺差的历史终结。
<正>小儿腹泻是一种四季均可发生的儿科常见病,尤以夏秋为多。小儿推拿对该病以其痛苦小、疗效好、无副作用、宜于接受而成为公认首选治疗方案。多年来笔者在传统推拿的基础
本文研究的目的是论证诺基亚技术支持服务外包的必然性和可行性,并为今后外包工作实施提供具体的指导和规划。本文通过逐一解决“为什么要做”、“可不可以做”、“怎么做”
在我国组织中,上下级关系对其组织成员而言具有重要意义,而辱虐管理这种领导行为的频繁出现会对上下级关系产生不容忽视的影响。面对辱虐管理时如何处理好上下级关系,这对组
<正> 笔者运用按摩手法治疗哮喘发作收效甚佳,现将施术方法介绍如下。治疗方法一、肃肺定喘法: 本法适用于哮喘发作期,患者表现为呼吸困难,张口抬肩,不能平卧。 1、患者坐位,
期刊