论文部分内容阅读
在互联网高速发展、迅速普及的信息爆炸时代,搜索引擎的出现给人们的生活带来了巨大的便利。但是,现有搜索引擎大部分依赖于关键字检索技术,由于互联网上充斥了大量资源和各种各样用户,通过关键字搜索出来的数据有很大一部分不能有效满足用户的需要。信息提取技术是一种能够获取特定事件或者事件与事件之间关系的技术,是一个从无结构的自由文本或其他信息资源中抽取出结构化,无二义性信息的过程。信息提取技术不仅仅能过滤掉对用户没有用的信息,而且还能生成用户感兴趣的特定信息,这使其成为企业价值评估的重要工具。企业价值评估是收集、分析以及应用金融信息来评估企业的价值,评估的结果可以作为衡量企业上市以及兼并重组等的重要依据。关于企业价值评估的信息和事件来源于财务报表、报表附注以及金融新闻,而这三大数据源都是以HTML和PDF的格式分布互联网各处。所以,要想快速准确提取评估相关的金融数据,改变过去通过手工收集数据的方法,研究出一套智能提取的方法是非常有必要的。本文在主体结构上分为四个部分,第一部分阐述了智能信息提取的理论和方法,包括中文分词、词性标注、关键字提取以及行列表格数据提取等方面的理论。第二部分根据财务报表、报表附注以及金融新闻等不同的数据源,分类提出了获得企业价值评估所需数据的智能提取方法,对每一类具体的方法进行了详细的分析。第三部分设计开发了基于企业价值评估的金融数据智能提取的原型系统,主要包括输入输出模块、词分析的模块以及信息提取模块等三大功能模块,把具体的智能提取方法和数据库关系模型应用到其中,并且通过财务报表、报表附注以及金融新闻的数据测试实验,检验了提取方法的可行性,并对测试结果进行了评价和分析。第四部分通过介绍基于企业价值评估的金融数据智能提取方法的应用,把智能提取方法和原型系统应用到企业并购重组,股票投资以及财务风险评估等经营管理活动当中,大大节省人力成本,提取决策效率。本文的特点在于,应用自然语言处理技术,根据不同的金融数据的数据源,提出不同的智能提取方法,然后结合企业价值评估数据库关系模型,自动的从这些数据源提取相关金融数据,提高了信息提取的效率。同时,优化和改进了词性标注技术,大大提高了金融数据提取的准确度。