面向用户兴趣的web文档聚类研究

来源 :中国石油大学 | 被引量 : 0次 | 上传用户:liongliong483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上文本信息、Web页面的迅速膨胀,使得人们想要在Internet上获取所需要的信息显得相当困难。因此,如何有效地对大量文本资源进行组织、管理,帮助用户获取真正需要的信息等,成为目前信息检索领域中迫切需要解决的问题。文本聚类是文本挖掘中非常重要的技术,它已经被广泛的应用于信息管理、搜索引擎、推荐系统等多个领域。在文本聚类领域,k-means算法简单且收敛速度快,是最常用的文本聚类算法之一,本文主要对该算法进行研究并改进。首先,为了克服k-means算法需要人工指定划分聚簇个数且初始聚类中心随机选择的缺点,本文将基于密度的聚类算法与k-means算法相结合,提出了一种基于参考区域的初始化思想,将生成的初始划分作为k-means算法迭代的基础。实验证明改进的k-means文本聚类算法能提高聚类结果的精度,同时保持了基于密度聚类算法的高效性。其次,为了克服k-means算法在迭代过程中易于陷入局部极值的缺点,本文结合最优化方法的局部搜索思想,对k-means算法的聚类结果进行迭代调整。并根据文本数据的特点,采用多数文本同时调整的方式,减少算法迭代次数,扩大了搜索空间。理论和实验分析表明这种改进方法能提高聚类的质量并保持原算法的时间效率。最后,将文本聚类和用户兴趣挖掘技术相结合,构建了一个面向用户兴趣的文本聚类系统CSUI(ClusteringSystemofUsers’Interest),该系统利用改进的k-means算法对用户浏览内容进行聚类,最终生成用户兴趣的相应表示模型。
其他文献
摘要:故障树分析法(FTA)是一种自上而下的分析方法,它是通过事件表示符号、逻辑门符号和转移符号来描述系统中各种事件之间的因果关系。从而编写出的逻辑关系因果图。其目的是查明导致顶层事件发生的原因或原因的组合。本设计通过对搜集的故障实例以及相关资料的分析、归纳编写关于汽车电器电路典型故障的故障树,分析了汽车典型的电器与电路的故障。根据汽车电器电路的诊断实例编写诊断工艺流程,即故障流程图。便于典型的車
临猗县位于山西省西南的运城盆地,是典型的一年两作区,全国农机化示范县之一。全县农业人口56万,耕地面积10万hm2,其中玉米、小麦种植面积各3.3万hm2,农机总动力达98.75万kW,各种大
抗战时期,新桂系主政安徽,建立了以皖西为核心的大别山敌后根据地。为应对复杂的敌后政治军事环境,新桂系提高县长职权,慎重县长人选。大别山敌后根据地的县长群体呈现出“年
一、绿色大棚西红柿种植技术1、选择生产基地。想要保证农作物健康的生长,必须要选择适合种植的土地,在大棚中种植西红柿也不例外。种植之前,需要根据西红柿的生长特点来选择
前不久,中央电视台新闻联播节目介绍用较长篇幅介绍了重庆渣滓洞、红岩、歌乐山革命博物馆的改制建设与效应;之后,CCTV二套的《对话》节目中,又邀请了红岩联线文化研究发展中心主
报纸
清代有个姓周的武举人调到长沙做官。这天,他带领随从去天心阁游览,看见几只灰鸽落到天心阁的拱檐上,便挽弓发箭。不想未曾射中,便没精打采地步入阁内,丧气地坐下。有个善察言观色
当前我国的城镇化水平已进入迅速发展时期,日益扩展的城镇区域和基础设施建设的滞后性形成鲜明对比。如何有效应对极端气候现象的危害已成为中国城镇化进程中面对的重要问题
针对PTA装置高速泵连续发生2起齿轮箱高速轴断轴事故,通过对操作、维修、工艺介质进行分析,结合高速泵解体情况和运行工况,发现由于泵入口过滤器损坏导致金属杂质进入泵体引
加强国防教育,是中央高度重视的一项战略性工作。太原国防教育工作要以国家国防教育有关法规为依归认真贯彻落实。通过着力发挥国防教育学院的作用,着力加强各单位主要领导和
在体育教学中运用合作式学习策略,有利于突出学生的主体地位、责任意识和能力培养。在体育教学中运用合作式学习策略,需要注意任务设置的目标明确、难度适宜,需要注意运用时