基于WEB的问答系统数据源构建技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaxia904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是信息检索的一个新的发展方向,是解决互联网上信息不断丰富与人们从互联网上获取自己需要的信息越来越难的矛盾的有效方法.数据源是问答系统的知识库,它是问答系统的物质基础.该文研究了基于互联网的在线自然语言问答系统中的数据源的获取方法与加工技术.基于互联网的问答系统的数据源来自互联网,因此该文研究的主要目标是如何利用互联网上的信息构建问答系统的数据源.这个问题可以分解成3个子问题,它们分别是:1、从互联网上自动获取网页;2、从获取的网页中抽取有用的信息;3、利用自然语言处理技术对获取的信息进行加工.这3个问题是顺序相连的,前一个问题的输出是后一个问题的输入.该文中对这3个问题分别进行了探讨.为了更好的说明问题,该文采用了一个面向旅游的限定域问答系统作为相关技术研究的载体.网页自动获取的主要功能是把分散在互联网上的信息下载到本地,以便进行深层次的加工.用来实现这种功能的程序常被称作网络爬虫.该文讨论了网络爬虫中的关键技术,设计并实现了一个从指定网站上自动下载网页的网络爬虫.该网络爬虫能够自动实现超链接的去重,并且能够实现对下载的网页中的HTML语言的标记及其对应的属性值进行规范化处理.从网页中抽取有用信息的技术,该文称之为网页对象抽取技术,这里的有用是指问答系统所针对的领域相关信息.常用的网页对象抽取方法是采用分装器的方法,这种方法虽然可以保证较高的准确率,但它需要对不同的网站构造不同的分装器,因而通用性差,且不易维护.该文提出了一种利用统计信息从中文新闻类网页中提取正文信息的方法,该方法在克服了分装器方法的缺点的同时还保证了较高的准确率,具有实现简单、易于维护的特点.自然语言处理技术的大量运用是问答系统具有智能性的根本原因.该文根据问答系统的需要,设计了一个用自然语言处理技术对自由文本进行加工的系统,系统中引入的自然语言处理技术包括分词与词性标注、名实体识别、文本分类与短语分析技术.利用网页对象抽取技术抽取的自由文本经过该系统的处理后,就会变成含有语法、语义标注的文本.这对于问答系统中问句与答案候选片断进行相似度计算有重要意义.
其他文献
电子邮件服务是Internet网络应用中除了http服务之外应用得最广泛的服务.随着Internet的广泛应用,电子邮件也成为人们日常交流中不可或缺的手段.近年来垃圾邮件在互联网上泛
  拒绝服务(DoS)攻击日益严重地威胁着Internet安全,而分布式拒绝服务(DDoS)攻击破坏性更大,更难防范。本文介绍了拒绝服务攻击的基本概念和发展情况,通过几种常见攻击工具的
英文识别OCR关键技术包括图像的二值化、文本分割、倾斜校正、单词字符分割、字符特征提取、字符识别以及后处理.相关工作还有字符模板的建立,后处理词典的建立等等.目前英文
随着多媒体技术的广泛应用,需要进行加密、认证和版权保护的声像数据也越来越多。保护数字产品的知识产权和阻止盗版已经成为数字产品和网络应用面临的严峻问题。数字化的声像
词义消歧是自然语言处理中的一个核心问题.现阶段,很多词义消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,在实际应用中有一定的局限性,所以该文希望能够针对
由于网页数量的快速增长,以及网页内容日新月异的变化,搜索引擎不可能搜索所有的网页,也不能对所有爬行下来的网页进行及时地更新.如何在有限资源下搜索最有价值的网页,对网
在三维地震解释中,可视化技术及追踪技术具有十分重要的地位。三维可视化的根本目的是要用真实的图形图像来描述观测数据、显示计算过程和分析结果,从而揭示大量数据中包含的信
学位
随着逻辑程序研究的不断深入,逻辑程序的语义和更新已经成为研究的热门,各种语义模型和更新方法层出不穷,尤其是更新方法中优先级别的研究.该文通过对现有稳定模型语义介绍,
随着Internet技术的成熟和蔓延,网络计算作为一种新的计算模式出现,其目的是把网络连接起来的各种自治资源和系统组合起来,以实现资源的广泛共享、协同工作和联合计算,为用户
“查找”在计算机的任何算法中几乎无处不在。据报道,计算机70%以上的时间在进行查找工作。因此节省查找的时间和空间成为了一个重要的研究课题。检索树(trie树)是支持较快查找