论文部分内容阅读
问答系统是信息检索的一个新的发展方向,是解决互联网上信息不断丰富与人们从互联网上获取自己需要的信息越来越难的矛盾的有效方法.数据源是问答系统的知识库,它是问答系统的物质基础.该文研究了基于互联网的在线自然语言问答系统中的数据源的获取方法与加工技术.基于互联网的问答系统的数据源来自互联网,因此该文研究的主要目标是如何利用互联网上的信息构建问答系统的数据源.这个问题可以分解成3个子问题,它们分别是:1、从互联网上自动获取网页;2、从获取的网页中抽取有用的信息;3、利用自然语言处理技术对获取的信息进行加工.这3个问题是顺序相连的,前一个问题的输出是后一个问题的输入.该文中对这3个问题分别进行了探讨.为了更好的说明问题,该文采用了一个面向旅游的限定域问答系统作为相关技术研究的载体.网页自动获取的主要功能是把分散在互联网上的信息下载到本地,以便进行深层次的加工.用来实现这种功能的程序常被称作网络爬虫.该文讨论了网络爬虫中的关键技术,设计并实现了一个从指定网站上自动下载网页的网络爬虫.该网络爬虫能够自动实现超链接的去重,并且能够实现对下载的网页中的HTML语言的标记及其对应的属性值进行规范化处理.从网页中抽取有用信息的技术,该文称之为网页对象抽取技术,这里的有用是指问答系统所针对的领域相关信息.常用的网页对象抽取方法是采用分装器的方法,这种方法虽然可以保证较高的准确率,但它需要对不同的网站构造不同的分装器,因而通用性差,且不易维护.该文提出了一种利用统计信息从中文新闻类网页中提取正文信息的方法,该方法在克服了分装器方法的缺点的同时还保证了较高的准确率,具有实现简单、易于维护的特点.自然语言处理技术的大量运用是问答系统具有智能性的根本原因.该文根据问答系统的需要,设计了一个用自然语言处理技术对自由文本进行加工的系统,系统中引入的自然语言处理技术包括分词与词性标注、名实体识别、文本分类与短语分析技术.利用网页对象抽取技术抽取的自由文本经过该系统的处理后,就会变成含有语法、语义标注的文本.这对于问答系统中问句与答案候选片断进行相似度计算有重要意义.