论文部分内容阅读
随着互联网的发展,互联网上的信息量急剧膨胀,但网页中信息表达的格式和风格随意、自由。面对多种的信息表达方式,让计算机去自动识别或分类这些信息就变得十分有意义。为了让计算机能够自动识别获取这些信息,各种信息抽取技术就应运而生。信息抽取技术的关键技术是包装器的生成方法。包装器(Wrapper)的生成方法是当前信息抽取领域的研究热点。然而当前的包装器生成方法设计一般针对某一特定的应用领域(如股票价格信息、工作招聘信息等),这样设计的包装器带有那一特定领域信息的特征,因此其应用都有其局限性。本文提出了一个面向Web表单的信息抽取通用模型,完整的设计和实现了模型的定义方法、训练方法、表达和存储方式及抽取方式。完整的阐述了对象模型和对象要素定义的结构和方法,并提出了一个采用此模型进行信息抽取的通用步骤。该步骤从互联网上获取包含需提取的信息的网页,然后通过网页视觉布局等信息分析得到含有具体内容的Web表单,然后建立待抽取对象的对象定义模型,最后通过该模型从抽取的Web表单中进行特定信息的抽取。在对象模型的定义时采用了专家定义和使用训练库训练两种方法相结合的方法。在最后的系统实验中,实践了使用该模型进行信息抽取的完整步骤,首先定义了两个对象模型(手机和MP3),然后从互联网中抽取了近万个这两种产品的Web表单,最后使用定义的两个模型进行了信息抽取,通过实验显示该模型对表单式的信息有较好的抽取效果。本文主要内容总结为以下几点:1.面向Web表单信息抽取通用模型的设计与实现;2.Web页面中视觉上的主体表单的提取;3.通过定义的对象模型对表单信息进行抽取的步骤和方法。