网络新闻话题检测方法与应用研究

来源 :中国科学院研究生院(本部) 中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速普及使得网络新闻成为民众掌握时事与获取各类最新信息的重要途径,但是在海量信息中找到自己关注的新闻及新闻话题也绝非易事。为了让人们能够快速地从新闻中获取有意义的知识,迫切需要对网络信息进行挖掘。本文即是面向网络新闻领域,使用话题检测、话题跟踪等技术对话题信息进行挖掘,将相关信息按所表达的主题进行归类,使用户可以在动态变化的环境下查找到自己需要或感兴趣的信息。   本文首先介绍了话题检测和话题跟踪(Topic detection and tracking,TDT)的一些基本理论和技术,如TDT语料、TDT任务、TDT研究体系、文本分类/聚类、搜索引擎、分词及自动摘要技术等。其次,设计了话题检测和跟踪算法,研究了报道和话题的表示模型,重点研究了相似度计算方法,在相似度计算中比对了两种标题相似度算法,提出了采用图片及视频所对应说明的相似度,以及多种相似度与正文相似度相结合的方法,并且在这一相似度计算方法中引入阈值,通过实验分析,验证了相似度计算改进算法的有效性及在系统中实施的可行性。第三,基于上述研究,设计并实现了一个网络新闻管理系统,给出了系统的体系结构以及网页抓取、分析、预处理、聚类和摘要系统的初步实现。最后,对本文的主要研究成果进行了总结和展望。   总之,本文的研究成果对于网络新闻管理具有重要的应用价值,对舆情检测和管理具有很好的借鉴作用。
其他文献
随着互联网、数字图书馆等的快速发展,在线资源库中的数字资源逐渐从单一的文本和数值媒体类型转变为包含越来越多的图像、音频、视频、动画等多媒体信息类型,特别是近几年来,基
需求变更是需求工程中不可避免的问题,会持续发生并贯穿于整个软件开发的生命周期中,并且会对项目的成本、进度、质量等多方面造成影响。需求度量工作是一个开发组织成长和进步
为了解决当前测井监督工作对监督人员要求较高、信息处理任务繁重、效率低等问题,实现测井工程监督工作的计算机化,本文按照软件工程学的原则对测井监督管理系统进行了分析、
随着计算机、互联网通信等技术的快速发展,如何保护多媒体数据,尤其是保护图像数据的安全已经变得越来越重要。而图像加密技术的出现很好地解决了这些问题。近些年,混沌理论
对于普通人而言,不管是否拥有音乐背景,都能很容易的感受到音乐的节奏。然而人们在随着音乐不由自主的跺脚或拍手后,仔细回想,除了快慢之外确又很难准确的说出一个音乐的节奏到底
学位
随着信息技术和多媒体技术的快速发展,视频监控的应用场景愈加广泛。传统的本地视频监控已经不能满足人们的监控需求,人们对于远程视频监控的需求日益强烈。但是视频数据量较
随着科学技术的进步和社会物质的富足,人类社会的分工合作趋于精细化和网络化。当前人们处于形形色色的复杂网络中,如以互联网为载体的各种社交网络、出行中所形成的交通网络、
互联网的出现从本质上改变了整个社会的办公、管理、经营模式,国内各大企业从20世纪90年代开始,就有了通过网络进行办公、管理、经营的想法。并随着互联网技术的发展,基于客户机
本研究课题来源于广东省自然科学基金项目“NSCLC生物适形调强放疗靶区智能识别及自适应控制”,作者主要负责医学图像的配准融合部分的工作。 医学图像配准融合是医学影像
SIP协议(Session Initiation Protocol , RFC 3261)已经成为IP通信的主流信令标准,无论NGN还是FMC、源自3GPP的IMS,均以SIP信令为核心;另一方面,一些专有协议的IP通信应用已