基于WAF的文档聚类技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:excalibur
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一个重要的基于统计的无监督信息处理工具,在很多应用领域起着基础的作用。其中,文档聚类是对文本文档进行聚类的方法,对于信息检索有着减小数据规模、改善检索效果的作用。WAF可以作为文档模型,服务于聚类任务。文档聚类方法已经有数十年的研究历史。近年提出的WAF模型利用term的共现信息建模,在数据集统计、词关系发现上有着显著的效果。相比VSM模型,WAF模型携带了更多的信息,有理由成为有效的文档表示模型之一。本文研究基于WAF的文档聚类方法,主要做了以下几个方面的工作。首先,对WAF模型的含义和理论基础进行分析和推导。一方面从图的角度分析了WAF的几何意义,另一方面以语言模型和信息论为出发点,理论上推导出WAF模型的信息论意义。其次,对WAF作为文档模型做了改进。利用词之间亲和度定义了.两个文档的WAF模型之间的相似度,引入了WAF平滑和A值平滑方法。再次,利用英文Wikipedia的开放数据,以VSM模型为对照组,评价了基于WAF模型的聚类方法的效果,验证了WAF文档模型的有效性。最后,介绍了实际工程项目中海量短文本聚类与存储的方案。采用快速聚类处理海量短文本,为下游模块减小数据规模。提出AIS策略存储时序海量短文本。
其他文献
网络管理是当今通信网络发展的一个重要方向的特点,SDH转输方式在中国的骨干电信网中已经占据了重要地位.该人研究的主题就是关于SDH的网络管理.并参与了SDH网络管理层操作系
该文就视听多媒体会议电视系统中的语音处理展开讨论,主要是ITU-TG.728建议的语音压缩编解码算法和语音选大算法.其主要内容如下:第一章简要介绍了视听多媒体会议电视系统的
大脑皮层的功能构筑不是一成不变的,而具有很大的可塑性,研究证明,可塑性在发育早期特别明显,在成年动物依然存在,尤其是一些具有生物学意义的刺激,不仅能在发育阶段影响皮层的功能
水声网络集成了声通信技术、网络技术、传感器探测技术、分布式信息处理技术,是当前的研究热点之一。由于网络自组织性强、覆盖范围广、数据交互方便和容错性高等固有优点,以
零陷控制技术是阵列信号处理的一个重要研究方向,其应用涉及到雷达、通信、声呐、地震、勘探等众多军事及国民经济领域。在理想情况下,自适应波束形成算法能将波束图的零陷对
摘要:本文从数学解题过程中的四个角度出发,引导学生学会思考,学会多角度、多层次地观察问题、分析问题、解决问题,力图使学生的思维更加灵活、更加深刻、更加广泛,从而更加准确地认识和理解知识的本质,为今后的进一步学习打好基础。  关键词:思维能力;培養;数学解题  中图分类号:G633.6 文献标识码:A 文章编号:1992-7711(2017)11-0029
作为LTE的平滑演进,LTE-Advanced系统的标准化进程备受瞩口。在LTE-Advanced系统中,采用了增强型多天线MIMO、多点协作传输(CoMP)、载波聚合(CA)、异构网络(HeNet)等多项关键
目的:在改良子宫内膜细胞原代分离培养方法的基础之上,探讨米非司酮对原代分离培养的人子宫内膜基质细胞增殖的抑制作用。米非司酮对乳腺癌的发生发展是否有抑制作用,及其相关的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
随着信息科技的迅猛发展,计算机技术和网络技术的更新换代拓展了图像应用领域。人们对远程会议、电子商务、远程教育等技术的需求不断增加,相关技术也得到了快速的发展。人脸