基于多向量的中文新闻话题检测

来源 :河北大学 | 被引量 : 0次 | 上传用户:xuan_98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题检测是处理互联网新闻的一种重要方法,使用聚类方法对新闻文档进行处理是实现话题检测的一条重要途径。凝聚层次聚类算法由于具有较高聚类精确度,且聚类结果能够分层展示等特点,具有较为广泛的应用。对话题检测结果具有重要影响的因素有很多,包括:话题的表示方法、向量的加权方法、聚类算法过程以及聚类个数的估计方法等。本文针对话题检测中的三个关键点:话题表示方法、向量的加权方法和聚类个数估计算法进行了研究,主要工作如下:1.在分析研究向量空间模型、主题模型以及多向量模型的基础上,将向量空间模型和主题模型相结合,给出了一种基于多向量模型的话题表示方法,同时结合基于簇中心的凝聚层次聚类过程,给出了基于多向量的凝聚层次聚类中的簇中心构造及更新方法。2.针对传统TFIDF算法中存在的对特征项在各个类中分布情况考虑不充分的问题,通过将特征项在各个类中的文档分布信息引入到TFIDF算法当中,给出了对传统TFIDF的一种改进算法,并将改进算法与本文给出的基于多向量的凝聚层次聚类算法相结合,应用于簇中心的更新算法当中。3.对聚类个数估计方法进行了研究,通过对最小信息准则和贝叶斯信息准则进行分析,同时结合凝聚层次聚类算法过程,给出一种将两种聚类评价方法相结合的聚类个数估计方法。本文使用语言数据联盟在话题检测与追踪评测中用到的TDT4数据集中的中文数据集对给出的算法进行测试,实验结果表明,本文给出的基于多向量的话题检测方法能够得到较好的文档聚类结果,通过对比试验可以发现本文给出的方法能够提高话题检测的召回率和准确率。
其他文献
随着现代交通运输业的快速发展,道路上行驶的车辆日益增多,伴随而来的交通拥堵、道路使用效率不高等问题却给日常交通管理带来了重重困难。而融合了计算机、电子等现代高新科
数学公式定位是印刷体数学公式识别技术的关键环节,也是实现数学表达式检索的基础。PDF文档是数学公式信息的重要载体,其中所包含的印刷体文档图像的质量参差不齐且采集参数
随着高校招生规模迅速扩大,学校面临着学生人数多、实习基地少、指导教师不够等实习管理工作的难题。为了解决这一问题,众多高校将实习方式由“集中式”向“分散式”转变,这
随着互联网基础设施的日益完善及个人计算机的高性能与廉价化,对等网络技术(P2P技术)已经成为传统计算模式的最有力挑战者,是当前分布式计算研究领域的热点之一。但现有的P2P技
学位
视觉信息是人类获取信息的主要途径,它通过人类本身的视觉感知系统获取,其中图像便是获取信息的主要组成部分,随着通信技术、多媒体和网络技术的快速发展,数字视频图像已成为
随着计算机网络的广泛普及和迅猛发展,网络安全问题逐渐受到人们的关注,因此,针对服务器的网络流量监测已成为网络安全领域的一个重要研究问题。目前,研究人员提出许多流量监
车牌自动识别技术(LPR)是目前智能交通控制领域的一个重要组成部分,它能够自动拍摄车辆图像并识别车牌号码,可应用于公路车辆自动收费、停车场车辆管理、车辆违规控制等不同
自从上个世纪20年代末第一台机器人被创造出以来,它们在协助或取代人类工作中发挥着越来越重要作用,尤其在高危险、高精度、高复杂性的行业中。70年代以来,机器人技术研究取
无线传感器网络技术是近十年来兴起的新型技术,自出现之日起,迅速发展并受到普遍重视。与传统网络不同,它将无线通信、传感器和微型机电等技术融合为一体,在军事、环境监测、