基于增量型聚类的自动话题检测研究

来源 :软件学报 | 被引量 : 0次 | 上传用户:helen_fu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.
其他文献
急性ST段抬高性心肌梗死(STEMI)可发生于妊娠的任一孕期,虽然发生率低,但却对母胎造成严重的生命威胁。妊娠期STEMI因其发生时期特殊,在诊疗上的关注点及临床决策与一般人群
2009年10月30日我国创业板市场的推出解决了中小企业融资难的问题,但创业板市场相较于主板市场来说,其IPO抑价率较高,这引起了广泛的关注。企业首次公开发行的条件之一是“最近三年连续盈利”,某些不符合法定要求却想募集资金的公司会在IPO前对其财务报表进行粉饰,即进行盈余管理勉强或欺诈上市,加上投资者盲目的追捧,致使公司上市首日股票高抑价,同时在上市之后又出现新股长期弱势问题。因此,企业盈余管理、
目的:观察祛湿健发饮治疗脂溢性脱发(湿热上蒸型)的临床疗效。方法:将符合入选标准的脂溢性脱发(湿热上蒸型)患者随机分为治疗组和对照组各40例,治疗组给予祛湿健发饮治疗,对
基于点的算法是部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDP)的一类近似算法.它们只在一个信念点集上进行Backup操作,避免了线性
<正>不知道读者朋友们是否看过上世纪90年代风靡全球的一部美国喜剧电影——《修女也疯狂》,你是否对电影中由黑人女歌手迪劳丽丝指挥修道院的唱诗班在做弥撒时大唱流行歌曲
<正> 盐酸戊乙奎醚(penehyclidine hydrochloride,PHC)是中国原创的新型选择性的莨菪类药物。近来研究发现,其能改善微循环、降低毛细血管壁的通透性,具有细胞保护和减少溶酶
随着我国分布式可再生能源快速增长,高效消纳的问题日益突出,基于电力电子变压器(power electronic transformer,PET),构建可实现大范围互联互济的交直流混合系统成为新的发
清真词中存在着丰富的叙事现象,词作中的叙事角色主要由男主人公、女主人公、旁观者三种人物来担当,采用内聚焦与外聚焦两种叙事视角来传递内心情思;词人以人生经历为素材,主
电力企业改革的不断深化,电力市场竞争机制的逐步形成,电力企业面临着巨大的挑战和压力,如何自主经营、自负盈亏,使电力企业在竞争中得到壮大,这就需要电力企业从源头抓起,严
文章介绍了导管舵、尾轴架以及两者之间的位置关系;为了确定两者的位置关系,笔者采用了作图法;同时提出了直接计算法,应用通过几何关系推导得出的实际可行的计算公式,可以简单快捷