论文部分内容阅读
金融行业对信息的获取和处理有着极大的需求,互联网的蓬勃发展为金融信息提供了一个平台,但同时互联网信息爆炸使得必须借助文本挖掘等计算机技术来帮助人们处理信息。词汇关联挖掘任务是诸多特定领域文本挖掘不可或缺的重要一环。但既有的词汇关联方法大量依赖人工构建,缺乏客观数据集作为对比和验证,同时大量工作是非领域特定和针对英语语言的。本文进行了面向金融行业的领域词汇关联的研究,分别研究了证券实体间的度量关系和金融领域术语的关系发掘。本文第一部分从主题语义和词汇共现的角度利用主题模型和余弦相似度建立了一个证券实体间的度量关联模型。实验表明,该模型能有效地度量两个证券实体的关系,可以发现人工方法难以发掘的关联信息。本文第二部分利用改变主题模型的主题数发现文本集中的概念分裂,从而给出了一个自动化的层次本体构建算法,为了验证该算法,利用该算法结合查询日志给出了一个自适应的查询扩展方法,实验表明,该方法能优于传统的查询扩展方法,并能适用于没有人工本体的场合。本文的主要工作包括:(1)给出了一种基于主题关联和共现关联的实体关系度量模型。该模型从主题语义和词汇共现两个角度综合对实体的相关度进行评估,可以通过无监督的方式挖掘出实体间的潜在关联关系,并度量这个关系;(2)将该模型应用于证券领域,通过与价格序列对比的方法给出了一个客观的实体关联的比较方法;(3)给出了一种基于领域文本库,自动学习领域层次本体的方法;(4)给出了一种包含领域本体与查询日志的混合查询扩展模型,通过查询日志,可以对已存在的领域本体进行扩充,从而成为一种自适应的查询扩展方法;(5)提供了一个主题模型应用实例,基于金融领域的客观数据,实现了主题模型在客观数据集上的评价。这些工作一方面是文本挖掘技术在特定领域的应用,一方面也可以对未来在金融行业应用文本挖掘提供参考。