基于潜在语义索引和免疫学习的BIRCH聚类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jy02132679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络已经发展成为人们生活的重要部分,网络上存储的信息是海量的,而且处于不断变化中。网络用户期望得到个性化的服务,网络服务端需要为其推出个性化服务提供决策参考,用户兴趣挖掘技术也就应运而生了。用户兴趣挖掘技术对用户的兴趣进行有效地记录、分析,并围绕着描述用户兴趣的计算模型开发应用。考虑建立用户兴趣模型的可用性及准确度,我们选择隐式建模方式,即不需要用户中断网络浏览过程,通过收集反映用户兴趣的信息来建立用户模型,推断用户的兴趣。本文采用记录了用户的搜索和访问等信息的日志文件。处理过程主要分为三个阶段:预处理、用户兴趣建模、应用。为了更好地处理大量的,并且增量式加入的网络文档,系统的主要建模技术采用了处理时间为线性的BIRCH聚类。经过日志过滤、正文抽取等预处理之后,采用传统的向量空间模型的网络文档的文本表示特征往往呈现出高维而且稀疏的特点,本文提出了加入改进的潜在语义索引处理,对比实验证明,处理时间明显地缩短,恰当地选择BIRCH参数以及LSI中的k值,能够得到适应所用数据和应用领域的更好的聚类结果。验证了潜在语义索引技术可以在保留主要语义结构的基础上降低文本表示的维数,在形成的潜在语义空间中提取最有意义的维度作为特征表示。有效性度量是评价结果的关键,其中有效性函数的选择是一个关系到判定效果的关键。针对不同的数据,BIRCH聚类需要找到优化的参数才能得到更好的结果。本文研究了人工免疫网络算法,探索将其自适应机制引入BIRCH聚类的参数调节优化过程中,根据调节得到的参数设定最适合应用领域和数据特点的有效性函数。本文利用上述技术建立用户模型,以模型为基础,开发了用户聚类和好友推荐应用,人工校对证明,可以认为模型能够对不同用户的不同兴趣领域较好地描述和计算。
其他文献
程序切片技术是一种重要的程序分析和理解技术,对程序进行切片的过程就是删除无关代码的过程,程序切片技术在程序调试、回归测试、软件维护、程序理解以及逆向工程等方面有着
机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。作为信息的主要承载者,命名实体的翻译质量对译文的整体翻译质量具有十分重要的影响,命名实体的翻译也成
随着自动化测试技术的发展,自动化测试技术应用到越来越多的软件测试中,如何将自动化测试技术应用到数据库管理系统功能测试成为一个新课题。可扩展标记语言(XML)以其自身的
目前,图像信息的处理、存储和传输在社会生活中的作用已越来越突出,人们对图像信息的需求也越来越迫切。尽管数码相机和扫描仪传感器的分辨率不断增加,但是新的应用将永远需
随着信息技术的不断发展,企业的信息化管理水平在不断提高。作为一种对员工进行考核和评价的方式,传统的纸质考试已经不能满足信息化管理的需求。越来越多的企事业单位开始使
随着人民生活水平的提高,用电户的不断增加使供电部门抄表工作量大幅增长。传统的人工抄表由于存在诸多弊端已经越来越不能适应现代化管理的需要。自动抄表系统因其效率高、差
生物信息学是由生物学、应用数学、计算机科学相互交叉所形成的学科,而数据挖掘作为一个崭新的计算机应用领域在生物信息学中有着广泛的应用。空间环境生物信息学数据的分析
经典粗糙集理论是上世纪八十年代初由波兰数学家Pawlak[1]首先提出的一种处理不确定性的数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,就能有效地分析和处理
随着计算机科学技术和信息技术的发展,中医药学也顺应潮流逐渐实现信息化和现代化。其中,中医症状-证型的辩证分类技术获得广泛关注并取得相应发展,是当前中医药领域主要的研
系统复杂性继续按照摩尔定律增加,而功能复杂性的增加速度则更加迅猛。为解决复杂性增加的问题,EDA行业提出了通过自动化来实现设计抽象(Design Abstraction)的概念。由于设