基于知识图谱增强的公司行业分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:d517441645
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国多层次市场的不断健全,投资者和消费者学会使用数据分析工具辅助投资,深入了解行业变化,改进投资策略。行业分类问题作为金融领域研究的基石,是学者的重要研究对象,也是企业着重关注的指标。现有的金融行业分类方法依赖于及时的专家维护和公司完全公开透明的信息,消耗时间和精力,不利于投资者追踪企业动向,也不利于企业及时调整自身定位。为了弥补以上问题,本文提出了完全的以数据为驱动的行业分类任务,特别地,构建了针对具有信息不透明特性的中小企业的行业分类数据集,主要研究内容是引入知识图谱,提升中小企业行业分类的准确性的任务。本文首先针对中小企业行业分类任务,分析了行业分类任务本质上是一个具有挑战的专业领域文本分类任务,论述了研究的重要意义。基于金融垂直领域文本,本文提出了一种知识图谱增强的文本分类方法,创新性地提出了在微调预训练语言模型阶段引入整体的局域知识图谱的方法,在金融领域文本的对比试验中达到了最好的成绩。现有的文本分类模型需要引入外部知识增强对专业领域词汇的理解,同时,现有的引入知识图谱知识的预训练语言模型需要大量数据和资源进行预训练,不利于直接应用于下游任务。本文首先研究了基于实体链指的局域知识图谱构建技术,提出了基于流水线的实体链指模型,在百度“千言数据集”实体链指评测任务上验证了模型的先进性。其次提出了知识图谱增强的文本分类模型KGEB,针对局域知识图谱节点出入度差异较大和无法传递自身信息的缺点,引入优化的图神经网络模型表示局域知识图谱的节点,针对知识图谱表示和文本表示异质性的问题,构建注意力机制将知识图谱节点融入BERT模型的词向量层中。KGEB模型无需设计预训练任务,节约了时间和空间成本,融合了知识图谱信息和文本信息进行预测。由于实际环境缺乏相关数据集,本文创新地基于全国中小企业股份转让系统(NEEQ)中的企业构建了数据集,该数据集包含了17604条商业模式描述文本及对应的行业类别标签,时间跨度为三年,体现了中小企业在其主营业务上摇摆不定的特点。本文提出的KGEB模型在该数据集的对比试验中,性能超过了其他对比试验,Macro-F1值达到了90.89%。
其他文献
目的:研究急性白血病患儿化疗后发生突破性真菌感染(Breakthrough Invasive Fungal Infection,BIFI)的危险因素,分析发生BIFI与患儿预后的相关性。方法:收集安徽医科大学第二附属医院儿童血液肿瘤科2015年1月至2020年8月收治的急性白血病患儿病例资料(年龄、性别、危险度等)和住院期间感染情况(广谱抗生素使用种类、粒细胞缺乏天数、红细胞输注、黏膜炎等),其中
学位
近年来,数字水印技术作为多媒体版权保护和内容认证的有效手段,已经得到了广泛的研究和应用。传统的数字水印技术会对原始图像造成一定的损坏,然而在一些对数据要求比较严格的领域(例如法律、医学和军事领域),既需要数字水印技术来进行内容保护,又不允许对原始图像造成任何不可逆的损坏,所以产生了可逆水印技术。可逆水印技术不仅可以像其他水印技术一样完整的提取出水印信息,还能无损地将图像恢复到原始状态。可逆水印技术
学位
目的探讨应用外源性硫化氢(Na HS)对肥胖小鼠体质量、脂代谢影响。方法选用雄性C57BL/6J小鼠建立DIO小鼠模型,模型构建成功后根据干预时间不同,将低脂饮食和高脂饮食喂养的的小鼠分别随机分为四组,在各组内根据选择的干预方式的不同再随机分为四个亚组,分别为低脂饮食对照组(A组)、饮食致胖(diet-induced obesity,DIO)模型对照(B组)、50umol/(kg·d)Na HS治
学位
背景越来越多的研究将人类及其宿主细菌定义为一个整体,证明整体之间的交流超越了肠道,肠道中的微生物群与肝脏疾病、过敏、糖尿病、自身免疫性关节炎甚至神经系统疾病有关。肠道微生物群在调节大脑功能方面至关重要。出生后早期新生儿的大脑发育迅速,肠道菌群早期定植期间的不平衡,能够通过免疫反应和神经元分化的异常改变,影响的新生儿大脑的正常发育。短链脂肪酸,是肠道细菌通过底物发酵后产生的代谢物,可以明显有效地影响
学位
形状在生活中处处可见。它是对象在移除了平移、缩放和旋转等效果后保留下来的几何属性,在医学诊断、生物信息学和生物识别学等科学领域中有着广泛的研究价值。弹性形状分析通过引入平方根速度函数作为曲线形状表示解决了形状分析中的三个关键问题,即形状表示、形状度量和形状配准,成为了分析曲线形状的有力工具。实际上,一些非曲线数据可以通过某种方式转换为曲线数据,从而利用弹性形状分析的优势解决原领域中的一些问题。因此
学位
在互联网日益发展的社会,人们愈发倾向于在社交媒体上发表看法和立场,由此而产生的社交媒体文本信息具有重要的研究价值。超大预训练模型GPT-2被提出以来,通过“提示”下游任务来训练语言模型的方法越来越受到研究工作者的关注,它用插入提示模板的方式,将文本分类任务转化为等效的完形填空任务。然而在立场检测任务的研究领域中,还没有基于提示学习的算法出现。立场是文本作者表露出的对于特定目标的认识或处理问题时所持
学位
目的:在世界范围内,日益普遍的肥胖和生活方式的改变已使非酒精性脂肪肝(NAFLD)成为未来十年最普遍的肝病。NAFLD不仅会导致肝硬化和肝细胞癌,而且与肥胖、2型糖尿病、心血管疾病和血脂异常一起作为代谢综合征的组成部分。因此,其相互的因果作用给患者和社会带来了巨大的健康和经济负担。非酒精性脂肪肝(NAFLD)在肥胖儿童中发生率较高,且危害大。本研究通过分析肥胖儿童的相关临床指标,探讨肥胖儿童发生非
学位
通过在线广告进行流量变现是大多数移动端应用和网站的商业模式。精准的广告推荐可以改善用户的使用体验,并且广告主也可以利用在线广告投放更好地推销自己的产品。但是,针对每点击计费模式的广告点击欺诈对移动在线广告的发展产生了极大的危害,严重影响了移动广告生态环境。如何区分虚假点击与真实用户点击,是广告平台需要解决的重要问题。本文围绕移动广告生态环境中的点击欺诈问题,从服务端和移动端角度对欺诈检测技术进行研
学位
随着互联网和人工智能技术的飞速发展,对话系统已经被广泛应用于现实生活中,而满足陪伴需求的开放域对话系统,有着较为深远的研究价值和广阔的应用场景。现有的开放域对话系统,虽然关注了生成回复的流畅性和内容的相关性,但是整体结果离用户满意的程度还有待提高。知识驱动的对话生成目的在于根据给定的对话历史,生成符合语境的回复,现有考虑嵌入外部知识的对话生成模型存在着使用知识不正确,生成质量差的问题。针对上述现状
学位
目的孤立性纤维性肿瘤(Solitary fibrous tumor,SFT)是一种来源于间叶组织的梭形细胞肿瘤,最常发生的部位在胸膜,其他部位如腹腔、盆腔、腹膜后、头颈部发生的较少见。颅内SFT是一种罕见的原发性中枢神经系统肿瘤,占所有颅内肿瘤1%以下。在最新的《2021年第五版(WHO)中枢神经系统肿瘤分类》中,中枢神经系统SFT被分为1、2、3级:1级为良性肿瘤,预后好;2级为低度恶性肿瘤,预
学位