基于事件词和参考链的Web新闻事件聚类研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:biiq123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻是重要的信息资源,随时随地的被报道,人们可以通过internet跨过地理的障碍获取各种新闻信息。探测新闻事件的产生和追踪事件的处理对于在快速变化的Web领域进行决策制定是非常有用的。事件聚类研究的问题包括:多少特征能被用来决定事件聚类,什么样的线索模式被使用来关联相同事件的新闻消息,聚类策略如何通过使用在线数据影响聚类效果,时间因素如何影响聚类效果,多语言的数据如何被聚类等等。本文的研究工作是研究事件词和参考链在Web新闻事件中的聚类效果。新闻事件聚类的目的是通过新闻事件自动的聚类文档。本文分别使用参考链和事件词抽取重要的代表性的语句,然后使用这些语句来生成摘要,随后使用这些摘要进行事件聚类。由于事件的时间跨度很长,固定的阈值会阻止后来的文档被聚类因而影响聚类效果,所以我们考虑使用动态阈值,一个动态的阈值考虑了时间延迟和时间跨度。论文最后还介绍使用了两个组合使用参考链和事件词的方法以用来检测这两个因素哪一个在事件聚类中的作用更加重要。实验结果显示,事件词和参考链对于事件聚类都是有用的,事件词在聚类中影响更明显。实验环境采用Windows XP作为操作系统、Visual Studio2005作为软件开发工具。
其他文献
数字图像的无序激增使得基于内容的图像检索(CBIR)技术成为当前研究的一个热点问题。现有的CBIR技术大多面向传统栅格图像,针对网络中大量存在的矢量图像在这方面的研究工作开
伴随着移动通信的日益普及以及传统语音类业务的饱和,利用移动通信网络以及互联网的现有资源,开展移动数据增值业务成为了必然的趋势,其中彩铃业务以其独特的优势在市场上占
图像中总存在许多各种各样的噪声,为了对图像进行有效地分析和通信,在图像预处理中必须减少图像中的噪声。传统的降噪方法在降噪的同时损失了图像的细节。然而有“数学显微镜
随着世界各国对基于道路网上移动对象时空索引技术的深入研究,关于如何对道路交通网车辆进行索引的研究也越来越被时空数据库领域专家所重视。目前的研究还处于理论探索阶段,为
入侵检测被认为是防火墙之后的第二道安全闸门,是网络安全的核心技术之一。入侵检测系统对恶意使用计算机和网络资源的行为进行识别和响应,它不仅检测来自外部的入侵行为,同
近年来,互联网上出现的Web服务越来越多。然而,单个且功能简单的Web服务不能满足实际的应用需求。Web服务组合技术可以将已有的Web服务按照业务流程进行逻辑上的合成,使得组
利用快速发展的网络技术实现信息资源的高效利用,其可行性及迫切性已经被广泛认同。P2P技术作为一个新的研究领域,具有广阔的应用前景。现有的P2P应用系统并没有充分发挥其性
电子商务是基于Internet的双方或多方之间进行的有形商品或者无形服务的交换,公平交换协议在电子商务中有着广泛的应用。同时签名是一种能够用来解决数字签名公平交换问题的
随着Web服务技术的日益成熟,越来越多的稳定易用的Web服务共享在网络上。Web服务组合作为Web服务一项重要的增值功能,为服务的重用与自动化集成提供了应用的基础。在动态Web
人脸识别一直是模式识别领域中的一个即热门又复杂的问题。在理论研究方面,近年来,以稀疏表征为基础的人脸识别(SRC)模型和以协同表征为基础的人脸识别(CRC)模型都表现出了区