基于语义过滤的文本和文本流聚类研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:quangang770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对基于语义过滤的文本和文本流聚类进行了研究。文章首先针对现有模型通用词削弱能力不够强的问题,提出一种改进模型,并把该模型与基于静态文本集的聚类算法相结合,实验表明该算法能大幅度提高现有静态文本聚类算法的聚类精确度。然后在语义过滤技术基础上,提出了一种包含文本语义的聚类信息结构即聚类轮廓,并给出了一种有效的适用于大规模动态文本流环境的在线聚类算法。该算法能有效解决文本流中的语义问题,能极大提高语义文本流的聚类精确度和稳定性。通过多组实验数据比较,进一步证明了算法的有效性和高效性。
其他文献
量子信息学是量子力学理论和计算机理论相结合而产生的一门新型交叉学科。该学科以量子力学的基本原理为基础,研究量子信息处理相关方面内容,包括量子计算和量子通信两大部分。
迁移工作流是基于移动计算范型提出的一种新的工作流研究方向。工作流业务过程根据业务目标的复杂程度被映射为一个或多个迁移实例,每个迁移实例执行一个目标相对独立的子业务
图表可以使得数据的表现更加直观和生动,但随着Internet技术和移动设备的蓬勃发展,人们对于图表的应用要求也越来越多。SVG(Scalable Vector Graphics,可伸缩矢量图形),继承
随着互联网的日益普及、移动通信的迅猛发展、网络传输以及各种新多媒体业务的出现,图像/视频编码技术已经成为当今信息科学与技术的研究热点。但是网络信道具有时变、误码率
基于IEEE 802.11的长距离无线mesh网络(Long-Distance wireless Mesh networks,LDmesh)由多个路由节点和客户端组成,节点通常采用廉价的大功率IEEE 802.11a/b/g/n无线网卡和
自动指纹识别技术是目前应用最为广泛的一种生物特征识别技术。它大致包括指纹图像预处理(指纹分割、指纹增强、指纹细化)、特征提取、特征匹配三个阶段。到目前为止,已有不少
伴随着工业界和学术界对云计算领域研究的持续深入,以及市场对IT成本和绿色计算的特别关注,桌面虚拟化和桌面云是继云计算领域中服务器虚拟化之后另一个技术研究和市场热点。
传统传输控制协议(Transmission Control Protocol, TCP)协议假设网络中出现分组丢失完全是由网络拥塞引起的,而在Ad Hoc网络中除此之外,还存在路由变化、信道错误和链路中断
本文探讨了西南大学研究生在CNKI数字图书馆信息检索过程中的选择行为特点和影响因素。首先,本文结合用户在传统数据库中的信息检索过程和用户在搜索引擎中的信息检索过程,总结
在传统的资源管理方式下,由于信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,从而难以实现相关资源的语义融合。如何使被管理的信息资源具有应用程序可以理解的含