基于结构化事件语义的金融新闻事件检测和跟踪方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ly_exe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻事件检测和跟踪旨在将报道相同内容的新闻文章聚类为一个事件并构建事件之间的逻辑关系。传统的主题检测和跟踪、聚类算法只注重将相关的文档聚类为一个主题,但是存在聚类粒度较为粗糙或者需要事先确定聚类结果个数的问题。最新的研究提出基于社区检测算法的双层聚类来识别新闻流中的事件并采用树形结构对事件进行跟踪,由于它们不能较好的捕捉到金融新闻术语表达的多样性导致事件检测以及事件跟踪效果不佳。针对以上问题提出的金融新闻事件检测和跟踪算法具有如下特点。(1)对金融新闻中占有相当比例的创投新闻提取结构化信息,提取的结构化信息用于增强具有大量相同内容的金融新闻间的区分度;(2)基于实体识别和时间窗口辅助金融新闻事件检测,通过实体识别确定金融新闻主题,在主题内判断金融新闻是否属于历史事件从而减少不同主题间具有相似表达的金融新闻的干扰。利用时间窗口限制事件检测搜索范围,通过时间窗口的方式减轻同一主题内具有相近表达的不同事件对金融新闻事件检测的影响;(3)基于事件语义相似度衡量事件间的关系并动态对金融新闻事件进行跟踪,使用优先队列根据词频限制事件关键词个数保证事件间有更强的连接强度。为了对算法进行评估同时弥补本领域金融新闻数据集的缺失,构建了多个数据集并进行评估。实验结果表明提出的金融新闻事件检测算法在三个数据集上效果均高于其他对比模型,归一化互信息(NMI)得分分别为99.21%,99.38%,96.60%,可以有效区分不同事件,解决术语表述不一致的问题。对事件跟踪算法生成的时间线在连贯性等多个指标的评估结果表明基于事件语义、事件时间距离、事件连贯性综合考量可以更好衡量事件之间的相似度,基于事件树关键词优先队列可以保留频繁出现的关键词保证事件树中心内容不偏移。
其他文献
学位
临床上医生在对脑颈部动脉血管疾病进行诊断时,通常需要进行CT血管造影(CTA),然后经过手工对动脉供血分区进行切割得到一系列不同动脉分支的多角度摄片重构图像。但这种方法对医生的专业水平要求高并且工作量大速度慢,亟需一种自动生成不同脑颈动脉多角度摄片重构图像的算法。提出一种基于关键点定位的自动脑颈动脉多角度摄片重构算法。首先,提出12个在自动脑颈动脉供血分区中起到关键作用的关键点,并在医院采集的CT
学位
人脸识别技术已广泛应用于各个领域。与传统手工提取人脸特征方式相比,基于深度学习的人脸识别方法能够通过多层级联的卷积神经网络提取更具表达能力的人脸特征,具备更高效、更准确的人脸识别能力。基于深度学习的人脸识别过程主要包括人脸检测与人脸特征识别两个阶段。人脸检测用于在图像中定位人脸,以从中提取人脸信息;人脸识别比对人脸特征提取的结果,判断人脸所属个体。在众多的图像检测方法和图像识别方法中,如何对模型进
学位
党的二十大提出了“中国式现代化”重要思想,中国式农村教育现代化也被赋予新的时代内涵。农村教育发展受所处社会的政治、经济、文化等因素的综合影响。系统梳理新中国成立以来农村教育发展的历史脉络显示:农村教育优先发展战略地位的确立、多管理主体权责关系的平衡、多样化办学实践样态的探索、系统化改革发展思维的完善共同构成了农村教育现代化的实践逻辑。中国式农村教育现代化的推进要通过加强乡村教师队伍建设、挖掘农村教
期刊
随着芯片行业的快速发展,摩尔定律出现了瓶颈,不再适用于工艺制程不断缩小的新兴芯片技术。传统的单芯片片上系统(System on Chip,SoC)架构的性能提升速度逐步下降,因此,Chiplet架构受到了学术界与工业界的广泛关注。Chiplet架构的特点表现为支持不同制程、不同功能的芯片封装在一起。但是,现有的基准测试集功能单一,且主要面向同构架构,即缺少针对Chiplet中常见的异构架构的基准测
学位
医疗票据识别依赖于光学字符识别技术,主要包含两个阶段:文本检测和文本识别。在文本检测阶段,由于医疗票据中印刷、机打文本相互覆盖,导致文本检测框中存在多种不同类型的文本。在文本识别阶段,基于CRNN(Convolutional Recurrent Neural Network)的文本识别方法对票据中干扰多、模糊的文本图像识别准确率不高。针对上述问题,基于DBNet算法提出了多分类文本检测改进,同时设
学位
肺结节是肺部疾病的一种常见表现形式。采用基于深度学习的方法,实现肺结节自动化检测和分割,将为医生提供有力的帮助。深度神经网络的训练需要较多的数据,针对医学图像难以获取的问题,采用生成对抗网络生成医学图像不失为扩增数据集的一种有效办法。根据肺结节生成任务的需求,以图像修复为生成的基本思路,在正常CT图像中“挖出”需要生成结节的区域及周围区域,对挖出的三维数据块保留边缘信息并用随机噪声填充需要生成的中
学位
软件加壳是恶意代码逃避安全监测的主要方法之一,自动化脱壳是应对此类安全问题的有效技术。但多数基于动态分析的自动化脱壳系统在应对多层壳和其他类复杂加壳时,存在脱壳成功率低、脱壳分析开销高和脱壳速率慢的问题。因此设计一种快速、低开销的脱壳系统,对增强恶意代码安全检测能力有重要帮助。针对加壳二进制文件的运行过程提出Wirte-then-Call-with-Entropy脱壳分析模型,该模型关注于样本运行
学位
计算机断层扫描(Computed Tomography,CT)技术被广泛应用在医学成像诊断中,图像的分辨率是CT图像成像质量的关键参数之一,较小的切片间隔能够提供更高的空间分辨率。然而临床上获得高质量的CT图像意味着更高的成本和暴露在放射性坏境中更长时间带来的癌变风险,因此一般使用较大层厚的CT图像。为了更好地利用厚层CT图像,需要设计方法从厚层图像中重建相应的薄层图像。3DSRGAN(3D Su
学位
近年来,以自然语言处理为基础的问答系统蓬勃发展并成为各行业热门,其中,教育背景下的课程知识问答系统可将学生问题从时间空间限制中解放出来,提高学习效率。但当问答系统服务对象为小学生时,针对其思维灵活和问题多样等特点,如何提高系统问答质量与效率是研究的重点。针对用户提出的需求,明确小学生课程问答系统目标,以生成式和检索式结合设计了系统总体框架,并针对问答生成模块进行详细分析,重点阐述了改进生成式模型和
学位