【摘 要】
:
新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般
【机 构】
:
复旦大学计算机科学与工程系,上海,200433
【出 处】
:
第二十三届中国数据库学术会议(NDBC2006)
论文部分内容阅读
新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般只能通过记忆以及个人的判断来得到一些结果,而并没有科学的查找方法.针对这样的问题,我们提出一个能够对新闻数据进行挖掘的方法,该方法能够有效地找到在某一段时期内发生的一些重要的新闻事件.
在本文中,我们讨论了在大量的新闻数据中查找重要新闻事件的问题.在新闻数据中找出重要事件是一个新颖的研究方向,也有着重要的应用背景.已有方法的主要步骤是首先找出一些单词,然后通过概率统计等方法将它们合并来得到事件,然而,这些方法并不能有效地找到重要事件.
在本文中,提出了通过评分查找重要事件的方法.该方法首先通过新闻文章对单词进行分析,得到了各个单词在每个时间窗内的重要程度,然后根据每篇文章所包含的重要单词数及其重要程度对文章进行评分,最后将重要的文章进行合并得到重要的新闻事件.我们通过实验证明,该方法能够有效地在新闻数据中找到重要事件。
其他文献
目的:比较利用计算机做中段食道癌时,三野和五野计划对肿瘤均匀性和正常器官所受的剂量的影响. 材料和方法:2005年1月到2005年7月共对30例食道癌患者进行三维适形计划,其
湿地被称为"地球之肾",具有独特的生态结构与功能.中国湿地面积约占全球湿地面积的10%,但近年来湿地面积逐渐萎缩,已造成了极为严重的生态恶果.因此总结以往湿地研究成果,确立
水土资源配置与宏观经济发展相关数据网站(简称WSED)是课题"中国可持续发展数据体系化扩展与重组"的子课题"水土资源配置与宏观经济发展相关数据的更新与分析"的组成部分之一
在大气科学数据库"十五"工作的基础上,探讨大气科学数据资料分析管理和应用系统的实现框架.介绍常用气象数据格式的使用,及其与数据分析和可视化软件接口的办法.研究数据处理
随着科学技术的发展和中国科学院各个研究所应用系统的高速建立,一种把这些宝贵研究资源整合的要求更加的迫切.E-Science计划要求对分布、异构的应用系统进行整合.现在利用SO
计算机网络的发展加快了企业和社会的信息化程度.它同时也带来了许多网络安全问题.本文全面分析了计算机网络中存在的不安全因素,并针对不安全因素提出了相应的安全策略,以期
Web使用信息挖掘就是利用数据挖掘技术从网络数据中发现用户的使用模式,以便于更好地了解网络用户的浏览行为和给用户提供更好的服务.本文主要研究了Web使用信息挖掘中的数据
科学技术研究工作中存在大量临时、瞬时、可变的资源授权情况,目前有针对性的授权解决方案仍是一个热点.本文提出了基于特权委托的动态授权模型,并通过对XACML规范的扩展实现
近年来,一种新型数据形式数据流得到了广泛的应用和研究,数据流是持续快速到达的数据序列,数据量巨大,并且数据分布具有时变性.聚类是数据流处理的一个中心问题. 本文研究
随着数据库系统的发展,数据的多维性已经广泛地存在于各种领域.由于人类没有对高维数据的空间猜想能力,不能对其产生直观的认识,因此可视化多维数据一般是寻找一种方法把多维