主题搜索引擎的信息抽取和索引的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:sodney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法作了研究,提出了几种改进的信息定位方法,并且从实际应用的角度,提出几种方法的组合策略,在此基础上可以编写出更为简单、健壮、通用的抽取规则,在实际应用中达到了较高的查准率。
其他文献
随着网络技术的发展,基于网络的软件在表现形态上有了新的变化,如今软件的开发和运行正面临一个多变、复杂、难控的网络环境,因而软件开发需要在软件的结构、软件的动态适应以及
随着信息技术的高速发展,计算机对教育的影响越来越大。E-Learning作为一种新的教育方式在教育中所占的比重也是越来越多,全国各知名高校的网络学院也纷纷建立。而在E-Learni
Bayesian网络,也被称作概率信念网络、因果网络,是一种复杂联合概率分布的图表示方式,能有效地管理组成问题域的各随机变量之间的条件独立或依赖的关系。一旦一个Bayesian网络建
随着嵌入式设备的应用越来越广泛,传统平台上的各种软件漏洞和基于漏洞的恶意攻击行为正在向嵌入式领域蔓延。反编译作为软件逆向分析工作的基础性工程,已经在通用平台的软件漏
随着业务的发展,企业一方面不断购进IT基础设施,增加IT系统的复杂性,另一方面又要求IT管理部门提供稳定可靠的服务。因此,企业需要实用、有效的服务管理系统来管理庞大的IT设
对流场的数值模拟历来是工程流体力学界十分感兴趣的课题,数值模拟与科学计算可视化技术的结合在流体力学研究中发挥了不可替代的作用。跟踪和驾驭方式的可视化技术是目前科学
大整数分解问题历来是数学家们关注的热点问题。随着信息技术的飞速发展,以RSA为代表的公钥密码体制得到了广泛的应用。RSA的安全性基于大整数分解是困难的这一命题,即:找到
网格计算的兴起与发展很大程度上改变了传统的计算模式。网格通过将地理上分布的异构计算资源进行整合,对其提供统一透明的访问接口,使得诸如大规模计算、分布式数据分析等相关
本文通过分析国内中小型企业信息化建设过程中遇到的问题,研究当前全球中小企业信息化建设发展的新模式,结合珍珠兰茶叶有限责任公司迫切需要解决的分销管理方面的重大问题,
在信息安全领域,有关计算问题复杂度的研究是一个重点内容。本文深入研究了一种基于图论思想的,分析计算问题复杂度的新理论——分层数据处理理论,并应用该理论来分析和解决信息