基于规则以及统计模型的金融交易信息抽取系统

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lm4194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在金融行业,如何准确、实时地获得客户对金融产品的购买意向,在很大程度上影响金融交易的达成率。在这种状态下,从形态各异、种类繁多的交易信息中高效、准确地获取有价值的信息是目前很有研究价值的一个课题。现在不少金融机构都是通过人工处理的方法或者结合单一规则从交易信息中获取有用的信息,这样效率与准确不高,工作量与人工成本也都比较高。因此,需要寻求一种方法去处理这种问题。本文利用规则与统计模型相结合的信息抽取技术,从企业庞大的数据群中快速的获取有价值的信息,更好的为用户服务。本文的目的是从金融交易QQ群中客户的聊天记录中抽取金融交易买卖信息,采用基于规则和基于统计的信息抽取技术对金融交易信息进行抽取,研究工作是在某金融科技公司的实际业务上实施的。本文详细描述了这个交易信息抽取系统的设计与实现方式。本文的主要工作主要包括聊天记录分类器、交易记录分类器、交易类别分类器等三个分类器的实现以及规整型与非规整型聊天记录处理模块的设计。一、分类器的实现。聊天记录分类器,根据规则过滤非交易信息聊天记录;交易记录分类器,根据聊天记录特征判断聊天记录是否规整;交易类型分类器,根据不同的金融类型对应不同的属性列表,不同的属性对应的属性值有各自的特征来识别金融交易类型。二、规整型聊天记录处理模块的实现。采用规则处理,通过设计交易类型分类器与属性识别相结合的办法,实现基于规则的信息抽取。三、非规整型聊天记录处理模块的实现。这部分为两块,首先训练标注模型,然后利用训练好的标注模型对聊天记录进行交易信息实体标注。采用了ICTCLAS分词工具、标注实体(属性)值、特征选择和条件随机场进行序列标注,实现基于统计模型的信息抽取,最终通过标注模型提取出属性以及属性值列表。通过一段时间的实践,基于规则以及统计模型的信息抽取系统实现了从QQ聊天记录中分类、提取金融信息,准确率达到80%以上,企业的人力资源成本和时间成本也有所减少。
其他文献
用户侧能量管理系统在用电安全、能耗评估、负荷识别、用电优化等方面发挥着重要作用。为实现这些功能,需要对电器特性进行研究,其关键在于能否构建合理的电器模型对电器的运行特性及用户行为的影响进行描述。本文提出一种电器运行状态模型:首先引入暂态与稳态的概念,将电器状态的运行功率划分为趋势规律和干扰噪声两部分,分别进行建模表达;分析了电器状态转移的原因,主要包括内部的固有运行特性和外部的用户影响,并将电器状
接地网对保障变电站内电力设备正常运行以及工作人员人身安全起到重要的作用。深埋于地下的接地网容易发生腐蚀故障,腐蚀后的接地网接地性能下降,对变电站安全运行造成严重威胁,因此本文致力于接地网故障诊断方法的研究。现有的基于磁场分析的接地网故障诊断方法需要大量的磁场测量数据。为了解决该问题,本文提出了一种基于反演诊断模型的分层诊断方法,并在此基础上开发了接地网故障诊断系统。该方法利用分散的地表测量点磁感应
储能系统中的双向直流变换器是维持能量平衡的关键,但双向直流变换器不同的拓扑结构适用于不同的电压等级、功率等级的场合,因此本文结合实际指标对多种双向直流变换器进行参数设计与仿真分析,说明各直流变换器在应用中的长处与不足,并在此基础上确定双向LLLC谐振变换器与双向Buck/Boost变换器级联的拓扑结构,并对其进行深入的研究。双向LLLC谐振变换器在同步整流法控制下,会因为副边侧开关管寄生电容大而失
近年来,配电网中出现众多光伏、储能、个人电脑、电动汽车等直流电源和负荷,催生了直流配电网的发展。由于目前配电网的主体仍为交流配电网,因此直流配电网不会单独存在,而是以交直流混合配电网的形态存在。交直流混合配电网中存在着各种各样的多元用户。多元用户包含很多灵活可控的资源,在经济调度中考虑多元用户的参与,充分利用多元用户灵活可控资源对降低交直流混合配电网的运行成本具有重要的意义。本文首先研究交直流混合
发展分布式可再生能源已成为替代化石能源、推进能源转型的重要途径。为了高比例消纳分布式可再生能源及满足直流负荷经济用能需求,直流配电网因其在经济性、可靠性等方面的明显优势,近年来得到快速发展。然而不同于传统的交流电网,直流配电网故障具有持续时间短、电流上升快、峰值电流大的基本特征。故障期间配网内大量换流站内部开关器件面临击穿威胁,这意味着快速故障检测是非常必要的,同时,应该准确确定故障点的位置,及时
随着城市化率的提高,人们对室内热环境质量的需求与建筑空调的能耗也在增加。在建筑物表面使用感温变色涂料是减少建筑物空调能耗和改善城市热环境的一种有前途的方法。本文通过将感温变色粉(TCM)与其他助剂混合制备了不同配方的红色感温变色涂料,以确定材料最佳配方。结果表明,当TiO2的质量分数为10%时,感温变色涂层的太阳反射率在深色态和浅色态之间的变化最大,且当TiO2含量一定时,TCM的质量分数对反射率
随着智能配电网的快速发展和国家对新能源的大力扶持,风力发电和光伏发电等分布式电源、电动汽车等新型用电负荷快速增长。这些新型电源出力及负荷的变化因受到自然资源条件、用户行为模式、外部环境、地理位置等因素影响而具有较强的随机性和相关性,大规模接入配电网后,会产生大量不确定性及相关性因素,影响配电网安全可靠运行,若不加以考虑,则可能导致对配电网运行状态和可靠性的评估出现偏差。另一方面,分布式电源及配电线
泛在电力物联网是国家电网公司继“坚强智能电网”之后提出的又一国家级电力建设重点方向,对电网的安全运行水平、数据共享与数据安全等提出更高要求。为此,本文研究了一种基于泛在电力物联网的非接触式电能信息采集器。在感知层,提出一种基于电容耦合原理的新型电压传感技术,结合电压取样调理电路实现电压非接触采集;基于高精度电流互感器和取样电路实现电流非接触采集;应用均方根采样算法提升电能信息采集精度;应用基于改进
单程式共享汽车分时租赁(One-way Carsharing)是一种基于共享经济的出行模式,具有能源清洁、用车灵活度高、用车价格低等特点。在共享汽车实际运营中,选址布局策略作为整个系统的基石,对系统的盈利以及后续的发展都具有非常重要的战略意义。基于上述考量,本文从企业运营盈利的角度出发,立足于整个共享汽车行业,对自由流动、固定网点以及混合运营方式下的共享汽车选址布局问题进行了研究。主要内容如下:1
电子发票随着互联网技术发展与用户需求而被催生出来,电子发票的发行将提高国家税收管控效率,节约企业成本,也为消费者带来更便捷的服务。电子发票具有防伪性强、便于保存、流通高效、数据联网、低碳环保等优点。然而,在电子发票系统中也会存在例如重复报销、非法变更发票状态、超限额开具发票等异常行为。本文根据电子发票服务系统中电子发票的流转过程,挖掘可能存在的异常行为,并给出相应的查处流程。特别的,在发票开具系统