论文部分内容阅读
随着Internet上信息的迅猛增长,网络已成为最为重要的知识库,人们对高效率的信息获取技术的需求越来越迫切。因此,应用信息抽取技术,从网页中自动地抽取有用信息是的智能信息处理的一个重要研究课题。信息抽取系统从Internet上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,信息抽取技术的研究已成为国际上自然语言处理领域的研究热点之一。 本文首先介绍了信息抽取技术的发展历程、关键技术、困难问题和评价标准,回顾了信息抽取技术研究的进展,对几种典型的Web信息抽取技术进行了综合比较。 本文提出一种改进的Wrapper归纳方法,半自动地生成Wrapper程序,提供一个很友好的可视化的交互式用户界面,让用户以可视化、交互式的方式对样本页面中的信息进行标记,用户既不需要手工地转换HTML文档,也不需要更多相关语言学知识,只需要直接在浏览器显示的样本页面中对文本做出标记。系统通过学习用户标记的信息集,实现包装器的自动生成,对同类网页进行信息抽取。 考虑到中文处理的特点和信息抽取的目标要求,本文利用基于最大熵模型的中文组块分析方法,对文本进行浅层句法分析。文中明确了中文组块的定义,列出了模型中所有的组块类型及组块标注符号,然后讨论了模型中组块的划分识别及特征选取,给出了相关的特征选择过程和算法。本文引入基于聚类的模式生成方法自动生成抽取模式,采用模式匹配的方法,实现中文自由文本信息的自动抽取。本文利用数据库与XML相结合的方式组织信息库,实现信息的Web表示。 在此基础上,本文设计并实现了一个基于Internet的军事演习信息抽取系统,并就信息获取、信息抽取、信息库组织及用户查询进行详细介绍,最后给出了实验结果和系统分析。