中文报道关系识别与话题跟踪研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:zhang_250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术飞速发展,网络信息规模急剧增大,提供自动高效的信息处理技术处理大规模新闻信息成为了必然。话题检测与跟踪是以新闻数据流为研究对象,通过对话题的发现、识别和追踪,为用户呈现组织后的话题结果,这对舆情分析,信息调研等工作具有重要意义。本文研究中文的话题检测与跟踪任务中两个子任务即报道关系识别和话题跟踪的相关内容。分析国内外现有处理报道关系识别与话题跟踪技术的现状,为提高报道关系识别和话题跟踪的效果及降低错误识别代价,对相关技术进行改进:针对报道关系识别提出抽取要素关联词对并计算关联词对的相似度的方法对报道的表示模型进行补充;针对话题跟踪,在类别选择的基础上提出一种基于改进KNN的话题跟踪算法。在报道关系识别研究中,根据相关报道的新闻要素基本相同的特点,把报道分成时间、地点、人物和内容四个向量,对其分别使用余弦相似度计算。抽取要素的关键特征词作为关联词对以补充报道的表示模型,并提出计算关联词对的相似度计算方法,为检测报道之间的相关性提供更多的依据。在话题跟踪中,为了解决常用KNN算法计算量大且易受训练样本分布的影响的问题,利用平均权重高的特征表示话题,使用KNN找到K个近邻话题,在K个近邻话题的报道中找到K个近邻报道,计算这K个近邻报道所属话题的平均相似度。动态更新话题模型以降低话题漂移问题的影响。经实验证明,本文针对要素关联词对所提出的方法降低了报道关系检测的丢失率、误报率,减少了约10%的错误识别代价。与传统KNN算法相比,本文改进的KNN算法执行效率提高近1倍,错误识别代价降低了9%,因此,本文所提出的改进的KNN算法具有良好的跟踪效果。
其他文献
随着电子商务的快速发展,大规模的并行业务流程日益增多,实例密集型商务工作流已成为一种重要的、广泛的商业应用。由于实例密集型商务工作流数据量庞大,要保证这类业务流程的服
随着中国经济社会的迅猛发展,城镇化建设已迈上新台阶,然而前期快速粗放的城市建设也带来人口急剧增加、城市中心高强度开发、公共空间不断减少、交通拥堵、雾霾频发等问题。大
多异构网是信息物理融合系统(Cyber-Physical System,CPS)的一种基本网络通信模型,是利用网关将多种不同类型的无线传感器网络及其他网络互联互通而组成的组合通信网络。本文对
目的 探讨真核延伸因子-1A2(eEF1A2)基因对宫颈癌细胞增殖、侵袭和迁移的影响.方法 设计eEF1A2基因的siRNA干扰片段分别转染宫颈癌SiHa细胞、HeLa细胞和C33A细胞,实验组包括:
目的 比较新疆地区汉族、维吾尔族正常及2型糖尿病(The type 2 diabetes mellitu,T2DM)个体血清二肽基肽酶(Dipeptidyl-peptidase 4,DPP4)含量,并探讨其可能的影响因素.方法
混合临界系统将不同关键级的实时应用程序集成到统一的硬件平台上,大大降低了系统的设计成本功耗体积质量,但是由此也引发了很多新的调度问题目前,混合临界系统中调度策略研究主
<正>一本关于课程的著作,为什么命名为"教育想象",作者究竟"想象"了些什么?一本讨论课程的书,为什么直接写课程的内容只有三分之一,而且一半以上的内容是在讨论教育评价?为什
在信息过载的时代,用户如何从海量的信息中找到自己感兴趣的内容,以及信息提供者如何精准地为用户提供信息,都是比较困难的事情。个性化推荐系统能够自动跟踪用户的兴趣特征,并精
改革开放以来,在中央领导同志的关心和国家广电总局的大力支持下,在自治区党委、政府的坚强领导下,紧紧抓住国家实施西部大开发战略等重大历史机遇,宁夏广播 Since the refo
软件定义网络(Software-Defined Networking,SDN)控制层面与数据层面分离的架构设计,使得SDN网络具有更好的灵活性、可管理性以及可扩展性。为了提高网络的性能,SDN网络中多采用