DynamicView中信息抽取系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:zjbme2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网(WWW)技术的不断发展促进了Web信息检索(Web Information Retrieval,WIR)和Web信息抽取技术(Web Information Extraction,WIE)的迅猛发展,如何从Web中抽取相关信息引起了人们的广泛关注。Web信息检索可用于从Web上的海量页面中找到相关信息所在的页面地址。与Web信息检索不同,Web信息抽取可以从一个具体的Web页面中抽取出相关信息,并以结构化的形式描述。现有的Web信息抽取算法可以分为以下两类:一是基于页面半结构化特征的信息抽取,例如html页面结构文法推断(Grammar Inference)和页面分段(Page Segmentation);二是基于自然语言文本特征的抽取,例如模版-槽填充(Template Filling)。与自然语言文本(Free Text)信息抽取相比,Web上某个具体领域中已标记的页面数量较少,因此如何在减少手工工作量的基础上保证较高的信息抽取系统的精度和召回率是有待解决的重要问题之一。本文在分析现有信息抽取算法的基础上,从DynamicView项目中信息抽取面临的问题出发,以准确探测研究员主页中的研究兴趣为目的,设计了基于列表页面导航特性和结构模版规则参数学习的研究员主页发现算法和基于页面分段技术的研究兴趣信息抽取算法。前者用于获取研究员的姓名及其主页地址,它将Web信息检索技术和Web信息抽取技术结合,能够高精度地获取具有相同特征的页面集合的问题。后者通过基于分隔符的页面分段算法过滤无关数据,并根据本体表示的领域知识从相关段落中抽取研究兴趣。本文将这两种方法运用到DynamicView系统中,实验结果证明这种方法是高效的、可靠的。
其他文献
开发航空物流信息系统这样一个具有行业特点(岗位业务相对独立,业务流信息流明显,数据的交叉公用性强)的企业级应用系统面临的主要问题是:软件复杂性高和需求变化频繁。为了解决这
近年来,随着信息技术的高速发展,OLAP(On-Line Analytical Processing)技术逐渐成为人们研究的重点。关系数据库具有二十多年的发展历史,在技术上已经相当成熟并形成国际标准。
无线射频识别技术(Radio Frequency Identification. RFID)是一种通过无线射频方式进行通信的非接触式的自动识别技术。它具有环境适应能力强、精度高、操作简单方便、抗干扰
目前,国内外对入侵检测系统的研究已经取得了很大进展,但是还存在几个方面的难题:(1)基于网络的入侵检测系统漏警率与网络性能之间的矛盾问题;(2)不同的入侵检测系统之间不能协同
由于多主体系统(MAS)能体现人类的社会智能、具有很大的灵活性和适应性,可以广泛地运用于构建开放、动态的软件系统,所以成为人工智能研究的核心领域之一。而使用形式化工具对
随着信息技术的飞速发展和信息设备的广泛应用,信息安全已经成为影响国家和社会的关键问题。而安全高效的密码系统则是解决信息安全问题的基础。椭圆曲线密码系统,与RSA、DSA
随着网络多媒体技术的广泛应用和发展,国际互联网已成为传播各种知识和信息的重要途径,但随之而来的盗版和侵权行为也越来越猖獗。近年来音频数字水印技术作为一种新兴的防盗
句法分析是自然语言处理的一个基本问题,也是目前急待解决的一个问题。大多数现有的句法分析是基于统计方法的,基于统计的句法分析模型需要大规模的训练样本,而标注一个大规
本文对重构中代码味道自动化检测技术进行了研究。主要有以下几个方面: 1.分析了代码味道的涵义、特征和引发原因,并且根据关注的角度和层次将其分成类内部结构型、类内部行
近年来,自动指纹识别技术已成为学术界的一个研究热点,已有不少国内外学者对指纹识别技术作了大量研究。但是,在目前的指纹识别算法研究过程中,算法研究工作者只能根据自己算法研