基于VSM的中文Web文本聚类算法的研究与实现

被引量 : 0次 | 上传用户:mrlee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网信息量呈指数级增长的时代中,人们想要在Internet上获取所需要的信息显得相当困难。因此,如何对大量中文网页信息进行有效地组织和管理,从海量无序的数据中获取对自己有价值的信息成为了一个急需解决的难题。中文Web文本聚类技术正是应用于这样的问题,它能对互联网上大量的中文网页资源进行分类管理,从而为后续的用户兴趣分析和个性化推荐等服务提供基础,但是,当前网页聚类技术不够成熟,仍有较大改进空间,需要对其中的特征选择算法和文本聚类算法进行改进,提高网页聚类效果。本文主要深入研究了中文网页聚类的相关技术,并就其中的中文网页主题信息提取、特征选择算法以及文本聚类算法提出了改进思路,具体包括:(1)在深入分析中文网页基本结构的基础上,通过正则表达式匹配解决了对网页标题和网页关键字的提取,另外,对网页正文的提取设计了一种基于内容关联性和超链接文字比的提取方法;(2)针对传统的TFIDF特征选择算法忽略网页基本结构特点以及忽略其他文本的词频的缺陷,提出一种改进的ITFIDF算法,增加了重点结构标签的特征权值以及罚因子;(3)针对传统K-均值算法依赖初始聚类中心和容易陷入局部最优解的问题,提出一种结合粒子群优化算法和K-均值算法的改进聚类方法PK_Cluster,它可以通过计算确定切换K-均值算法的时机并自适应地调整惯性权重,以此增强算法局部精确搜索能力;(4)实现了整个系统,并通过实验验证了改进思路的有效性,最后将系统应用到用户行为分析中。
其他文献
一般的CAD/CAM软件经过计算都已经得到了刀具轨迹的全部信息,但为了适应数控机床的要求,还要进行后置处理,以得到特定数控机床适用的数控加工代码。后置处理是根据数控机床及
清代前期的云南对外贸易吴兴南清代云南对外贸易以越南、老挝、缅甸等邻国为主要对象。这一时期,云南边疆社会趋于稳定、商品经济日益发展,物质财富日渐丰富,为对外贸易的发展奠
本文运用文献研究法和文本分析法,针对留学生“做客”这一常用交际项目的图式结构进行研究。通过对教材中与“做客”有关语料的分析和整理,总结出做客交际项目图式结构是什么
旅游特色街区作为城市旅游业发展的重要推动力量,其发展日益受到政府和民众的关注。在对襄阳市旅游特色街区的街区类型、空间结构及其成因研究的基础上,提出襄阳市旅游特色街
人身危险性是随着刑事实证学派登上历史舞台的,随着刑事理论和司法实践的相互推进,该理论的内涵也日益丰富,对现实的指导功用也日益为世人所认可。人身危险性,从其诞生的那一
核电站像常规发电站一样存在安全问题,必须着重关注核安全问题。核电站也和其他常规发电站一样,可能因设计不当,设备故障,人因失误或其他外来因素造成各种事故。核电站建在什么地
发源于日本的一村一品运动,是以立足本地、放眼全球、自立自主、锐意创新、培养人才、面向未来为基本理念而开展的一项地方振兴活动,目前已推广到泰国、韩国等21个国家和地区
本文通过227份有效问卷并运用结构方程模型,对大学教师成就动机与其工作绩效间的关系进行实证研究,研究表明大学教师的成就动机对其工作绩效具有显著的正向影响,但是这种影响
<正>倘若你习惯于得意洋洋地说,我是工作狂,那么现在要警惕了,你可能因此失去友谊、尊重、甚至工作。概念纠偏工作狂≠热爱工作长期以来,人们对工作狂的尊重与认可,是建立在
期刊
随着人们日常生产作业工作量的不断增加,机械化程度要求越来越高,在物料搬运、装卸及设备安装过程中,起重机发挥着越来越重要的作用。自行式起重机由于可以自己行走,无需辅助设施