基于内容的网站聚类算法研究

被引量 : 0次 | 上传用户:SDAJFASDJFASDJFAS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,无论是网页的数量还是网站的数量都呈现了巨大的增长,给人们快速有效的获取有用信息带来了巨大的挑战,因此,随着基于网页的web挖掘技术的成熟,基于网站的web挖掘也成为了人们越来越关注的问题,如逐渐流行的网址导航功能都是以网站分类为基础的。网站聚类是web挖掘的一个重要方向,对于发现站点间关系有重要意义,可用于网络社区发现、网站相似性分析、用户导航等多方面。本文的主要工作是通过利用自然语言处理等技术对网站的内容分析处理,采用网站的向量空间模型表示方法,通过采用多种网站特征选择方法、相似度计算法以及聚类算法,对基于内容的网站聚类进行研究,从而找到一种具有良好聚类效果的基于内容的网站聚类算法。首先,由于汉字和汉字之间不像英语那样有明显的分割符,本文首先对中文文本进行分词处理。本文采用的是基于重复串的无词典分词方法,主要包括分词预处理,汉字结合模式的获取和汉字结合模式的过滤三个部分。该部分的结果是获得了具有相对完整的上下文语义的词条,并且作为网站特征词提取部分的候选特征词条集。其次,由于网站是大量网页的集合,中文分词部分获得的候选特征词条集数目庞大,如果用它们全部作为网站特征,则向量空间的维数将非常大,不但影响聚类的精度,且计算的复杂度相当大,因此需要进行特征选择来降维。本文提出了3种网站的特征选择方法,互信息,CHI和TFIWF的方法。然后采用局部特征选择和全局特征选择相结合的特征选择策略,从网站候选特征词条集中选出网站特征词,作为向量空间的各个维,建立网站的向量空间模型。最后,在上面的网站向量空间模型的基础上,本文分别采用了基于划分(k-means,二分k-means)、基于层次(凝聚的层次聚类)和基于模型(SOM)的聚类算法,并且对聚类算法中的相似度计算,分别采用了欧式距离,曼哈顿距离和余弦定理三种不同的方法,从而通过网站特征选择,相似度计算,聚类算法的不同组合,找到一种效果较好的基于内容的网站聚类算法。
其他文献
元明时期,随着云南白族地区经济的发展和与祖国内地政治、经济、文化诸方面联系的不断加强,白族地区所有权形式发生重大变化,本文对这种变化及产生变化的原因进行剖析。
研究了不同浓度和不同碳链长度的烷基二苯醚双磺酸盐(MADS)泡沫的静态和动态稳定性,并对C12-APG/MADS复配体系的动态稳定性进行了研究,实验结果表明起泡能力随MADS随着疏水链
数字中频技术是目前软件无线电技术中发展最迅速的一项技术,基于软件无线电技术的中频数字化接收机已经成为现代雷达、通信、测控系统的重要组成部分。因此,研究中频数字化接
<正>一、前言熊家冢墓地位于湖北省荆州市川店镇张场村,是目前所见规模最大、保存最好、陵园分布最完整的楚国高等级贵族墓地。整个墓地由主冢、祔冢、殉葬墓、车马坑、祭祀
<正>2014年11月23至26日,由中国博物馆协会乐器专业委员会和东亚音乐考古学会主办、湖北省博物馆和厦门大学人文学院共同承办的"第六届东亚音乐考古学国际研讨会"在福建省厦
研究背景1、经典的经济学理论认为市场经济机制不利于解决公平问题和卫生资源的优化配置;2、2000年,世界卫生组织报告中对中国卫生筹资公平性的评价结果显示中国位居第188位,
通过引导积累,生活铺垫;指导修改,精心提炼;赏识激励、培养兴趣这三方面努力,可以让作文语言更自然,更精彩。要调动学生的积极性,通过他们的积累、提炼,使学生的语言之花,竞
现行我国的中职教育采用的是创新型教育,而创新型教育的实施离不开创新型的教师。所以,加强创新型教师的培养是发展中职创新型教育的关键。本文从培养创新型中职教师的重要性
依托区域内的黄山、西递-宏村、西湖、千岛湖、三清山、庐山、武夷山、土楼等风景名胜,共同打造和提升华东世界遗产风景道……近日,浙皖闽赣四省在浙江义乌签署了《关于加快
本文通过介绍大连港地区更新改造的相关规划设计研究过程与成果,分析与其最终修订的控制性详细规划的根本差别,并结合我国规划设计实践的现状,提出相关方面的思考。