面向金融事件检测的层级多标签文本分类

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:conanyuexin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
上市公司在股票交易市场中的股价很容易受到各种事件的影响,投资者进行事件检测可以帮助人们及时识别伴随这些事件的投资风险和机会。金融事件体系往往呈现为层级结构,在实际应用中可以用树形结构来表示这些事件,因此本文将金融事件检测问题建模为一个层级多标签文本分类问题,其中每个事件就是一条从根结点到目标节点的序列标签。常规的层级多标签文本分类方法通常会忽略事件层级间存在的依赖关系,将每个事件都视为独立的个体,施以相同的惩罚系数。针对这个问题,本文从数据集构建、算法设计和实验对比三个方面构建解决方案,总体来说本文的核心贡献如下:·本文针对具有大量事件类别标签的金融应用场景,提出了一种神经层级多标签文本分类算法,即F-HMTC。F-HMTC基于Transformer的编码单元来学习文本的潜在特征,使用一层前馈神经网络作为分类器。为了有效引入层级依赖信息辅助文本分类,本文设计了基于层级多标签文本距离和迭代正则机制的目标函数引导模型优化。·本文提出了一种有效区分层级分类结果的工业评估指标,即HMDScore,并利用该指标对模型表现进行衡量。许多研究基于拍平分类的评价指标比如准确性/错误率和精确率/召回率来衡量层级分类模型,但这些指标实际上并不能将不同类型的错误进行区分,因为不同的错误所代表的意义也不一样。因此本文基于层级多标签距离提出了适合我们实际应用场景的HMDScore。大量实验表明,该指标可以有效衡量层级分类模型的表现。·本文从实际应用场景出发构建了一个准确完整的数据集,并基于该数据集开展了大量对比实验来验证本文提出的结论。为了开发出贴近实际应用场景的检测算法,本工作从头构建了模型训练的数据集。数据集构建包括数据收集和文本标注两个部分,对于前者,本工作基于爬虫技术获取了丰富的文本语料,在标注部分我们结合模型迭代中发现的问题设计了科学有效的预推荐和标注策略。最后,本文基于层级抽样的策略组织业务专家对测试集进行复核,确保数据集可以准确反应真实的业务场景和模型的泛化能力。
其他文献
目的探讨和对比三维重建技术与CT引导下Hook-wire穿刺在胸腔镜手术中肺部小结节定位的临床应用价值。方法收集2018年3月至2019年5月我院胸外科诊治的肺部单发周围型小结节患
随着我国新一代载人、登月及重型运载火箭的前期论证和预研的深入开展,大型复合材料夹层结构的设计理念进一步向高刚度、轻质化、功能化的集成式结构设计制造理念转变。如运载火箭结构系统为了实现内部空间的高效利用,需要在夹层结构中设计大量的安装孔位,传统的复合材料夹层结构安装形式很难兼顾承载能力、可设计性能强等综合方面的技术要求,因此本文通过提出复合材料夹层结构中后装碳纤维承力衬套的结构设计,并对碳纤维承力衬套以及复合材料夹层结构进行工艺研究,实现夹层结构后装承力衬套的承载能力大、可
历史是最好的教科书,也是最好的清醒剂。党史学习教育开展以来,省政协党组深入学习贯彻习近平总书记重要讲话精神,坚持学史明理、学史增信、学史崇德、学史力行,以上率下扎实
卫星电源系统是一个结构复杂的整机系统,其中DC/DC(DC全称为direct current,代表直流电)变换器是星载电源系统中不可或缺的重要模块。由于恶劣的太空环境,现阶段的DC/DC变换器主要通过集成IC进行模拟控制,可靠性高、性能稳定。但是随着软件定义卫星的发展与变革,因其灵活的功能结构,导致以模拟控制为主的星载DC/DC变换器难以胜任,与软件定义卫星相配套的星载开关电源必将走向数字化控制的
复电阻率方法已经在金属矿藏勘探以及水文地质等方面有着广泛的应用,但在地球物理测井的研究领域中,至今还没有商业化的测井仪器,复电阻率方法还停留在方法研究以及实验室测
B型流感病毒(IBV)是引发季节性流感的主要病原,与A型流感病毒(IAV)宿主广泛不同,IBV主要感染人和少数哺乳动物,极少有禽类自然感染的报道。IBV聚合酶组成虽然与IAV相似,但其
近年来随着我国航天事业的飞速发展,由于航天产品造价昂贵,可重复利用率差等因素的存在,使得检测活动多余物的技术愈来愈重要。活动多余物产生主要是生产过程不规范,工人操作不当等原因生成的,多余物的存在可能会导致整个产品失效。而航天产品的一个重要指标就是可靠性,所以活动多余物的检测成为亟待解决的问题。本课题在此背景下,提出了检测活动多余物材质的算法。首先,借助基于微粒碰撞噪声检测法(Particle Impact Noise Detection,PIND)方法的活动多余物检测装置
随着航天器功能的多样化和高性能化、航天器的总功率越来越高以及电子设备越来越小,目前的微型航天器已经进入了一个新的发展时代。柔性互连技术中柔性互连电路的任意扭曲实现了器件级设计的高密度化,加上与控制板的有机融合,形成了一体化的产品,达到了对航天器有限空间的高度利用。立体柔性互连技术提供了用柔性绝缘基材制成的柔性互连电路满足了大电流高密度小型化耐宇航环境的电子产品需求。柔性互连技术是未来电子产品制造的
本文以企业实际生产中数据采集控制系统为研究背景,提出了基于STM32单片机的数据采集控制系统的设计。使用计算机实现对现场机器运行状态的实时监测和控制,不仅有效地减小了控制系统的成本和功耗,提高了系统的可靠性,同时将以太网引入现场控制领域。本文主要对硬件电路和嵌入式程序进行了研究和设计。本文根据系统需求,设计了DI、DO、AI、AO四块电路板。硬件电路主要包括单片机控制模块、数据采集与处理模块、数据
目前,地理信息系统(Geographical Information Systems,GIS)应用广泛,在交通导航、地理信息检索以及农业、林业资源管理等领域做出巨大贡献。矢量地理数据作为GIS的基础数据,具有巨大经济价值,一旦发生篡改,会使信息数据的所有者、使用者产生重大的损失。脆弱水印技术在图像认证方面具有独特优势,应用脆弱水印技术解决矢量地理数据的安全性问题是当前新兴研究热点。合谋攻击是一种常