面向金融行业的领域词汇关联研究

被引量 : 0次 | 上传用户:zouximu19840420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融行业对信息的获取和处理有着极大的需求,互联网的蓬勃发展为金融信息提供了一个平台,但同时互联网信息爆炸使得必须借助文本挖掘等计算机技术来帮助人们处理信息。词汇关联挖掘任务是诸多特定领域文本挖掘不可或缺的重要一环。但既有的词汇关联方法大量依赖人工构建,缺乏客观数据集作为对比和验证,同时大量工作是非领域特定和针对英语语言的。本文进行了面向金融行业的领域词汇关联的研究,分别研究了证券实体间的度量关系和金融领域术语的关系发掘。本文第一部分从主题语义和词汇共现的角度利用主题模型和余弦相似度建立了一个证券实体间的度量关联模型。实验表明,该模型能有效地度量两个证券实体的关系,可以发现人工方法难以发掘的关联信息。本文第二部分利用改变主题模型的主题数发现文本集中的概念分裂,从而给出了一个自动化的层次本体构建算法,为了验证该算法,利用该算法结合查询日志给出了一个自适应的查询扩展方法,实验表明,该方法能优于传统的查询扩展方法,并能适用于没有人工本体的场合。本文的主要工作包括:(1)给出了一种基于主题关联和共现关联的实体关系度量模型。该模型从主题语义和词汇共现两个角度综合对实体的相关度进行评估,可以通过无监督的方式挖掘出实体间的潜在关联关系,并度量这个关系;(2)将该模型应用于证券领域,通过与价格序列对比的方法给出了一个客观的实体关联的比较方法;(3)给出了一种基于领域文本库,自动学习领域层次本体的方法;(4)给出了一种包含领域本体与查询日志的混合查询扩展模型,通过查询日志,可以对已存在的领域本体进行扩充,从而成为一种自适应的查询扩展方法;(5)提供了一个主题模型应用实例,基于金融领域的客观数据,实现了主题模型在客观数据集上的评价。这些工作一方面是文本挖掘技术在特定领域的应用,一方面也可以对未来在金融行业应用文本挖掘提供参考。
其他文献
随着科学技术、数字信息化的不断进步,并行计算已经深入高性能开发的各个领域,单平台单计算的速度和性能已完全不能满足人们的需求,高性能低功耗的平台成为了未来发展的趋势。从
金针菇是一种营养价值颇高的食用菌,但在普通条件下货架期极短。本文以工厂化栽培的白色金针菇为材料,采用低温贮藏、PE包装贮藏、减压包装贮藏技术,研究其采后生理生化的变
从新国展二三期项目发展的定位上看,主要是瞄准三大领域,未来承办的展会主题要结合北京的发展特点,一个是现代服务业,一个是文化创意,一个是科技创新。要把这些项目打造成北
期刊
“看病贵”是一大民生痛点。尤其是对于患有严重疾病甚至罕见病的患者而言,“看病难”和“看病贵”很大程度上是由于难以用上一些疗效确切但价格昂贵的药物。如何才能让老百姓
报纸
水路交通为我国各地经济往来提供了便利,为经济的发展作出了突出的贡献。但航道在频繁的运输中很容易产生淤泥,淤泥沉积太多就会阻塞航道,影响水路的正常航行。因此疏浚工程
和解、调解和诉讼,共同构成了我国医疗纠纷处理机制。多元化的处理机制运行到今天,解决了不少的纠纷,但是随着医疗纠纷逐年增多,其中的弊端也逐渐显露,针对当下社会现实,完善
近年来由于油价的快速上涨,航空公司的成本不断上升,获利空间不断受到压缩,因此未来航空公司除了节流减少不必要成本支出外,更需不断开源拓展新业务。由于中国在经济上的快速
中国期货行业经过近20年发展,经历了初期发展、治理整顿以及法规重塑后,自2008年后进入了一个高速发展的新时期。近年来伴随着经济环境的起伏,期货行业也经历了券商兼并期货
场地效应一直以来是地震工程领域研究的热点。利用数值模拟和理论计算的方法进行这方面的研究已极为普遍。由于不需要太多的假设和简单的计算过程,基于强震动记录的场地效应分
古诗文是我国优秀的文化瑰宝,宋词自然也成为其中一个重要方面。学习宋词有助于培养青少年学生热爱祖国语言文字的情感,有助于认识中华文化的博大精深,有助于提高学生的文化