基于表格语义的Web信息抽取方法的研究

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:shc200800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在Web页面常用到表格这种元素。本文提出一种根据表格语义来进行信息抽取方法。首先提出了一种短语语义相似度的度量方法,然后利用短语语义的相似度确定表格标题行(列),并对表格行(列)与抽取字段的对应关系进行计算,最后计算表格的整体语义,度量该表格与所要抽取的内容有多大相关度。 全文查看链接   设计这样一种算法,选取任一单元格,让其与同行和同列的单元格比较,如果相异度较大,则增加该单元格的置信度;如果相异度较小,则该单元格的置信度小幅增加或不增加。例如对于“价格”这一单元格,在行方向要考查与“1200元”、“1350元”的关系,在列方向要考查与“厂家”、“型号”、“颜色”、“通话时长”、“待机时长”等的关系。对每对关系都计算一次该单元格的置信度。 全文查看链接
其他文献
摘要:该文阐述了虚拟专用网及其核心技术一隧道技术。先介绍了VPN的产生背景及其能够实现的功能,VPN的关键技术;接着分析了实现VPN的隧道技术和隧道协议,并着重分析了第二层隧道协议PPP协议和IPSec第三層隧道协议的工作原理;最后说明了VPN的优势及在实际中的应用。  关键词:虚拟专用网(VPN);隧道技术;隧道协议
摘要:该文在对coM 构件技术进行深入研究的基础上,设计了一种基于构件的多层软件体系结构该体系结构能有效提高软件开发的效率、增强软件系统对环境变化的适应能力。  关键词:coM 构件;软件复用;管理系统  中图分类号:TP311  文献标识码:A  文章编号:1009-3044(2009)07-1634-02
摘要:在网络操作系统当中,Linux是一种广泛用于各种大型服务器的操作系统。在网络安全中,网络服务器安全是一项重要的安全指标,而要实现服务器的安全,首先就是要实现服务器所使用的操作系统的安全。該文从Linux的安装开始,介绍了Linux从分区开始,安装,直至使用过程中的一些安全配置。从而在一定程度上实现安全使用Linux的目标。
摘要:根據联合站的生产特点,提出了基于DCS系统采集生产数据的方案。对DCS系统中的软、硬件作了详细介绍,总结了运行过程中需要注意的事项。  主题词:DCS系统;联合站;数据采集;应用  中图分类号:TP399  文献标识码:B  文章编号:1009—3044(2009)12—3287—02
摘要:该文在分析微软.NET开发平台和移动Agent系统基础上,提出移动Agent系统开发所面临的三个主要问题,即如何移动代码、如何执行代码和如何相互通信等。以一个典型应用开发为例,研究了利用.NET平台中Remoting、反射等技术实现移动Agent系统开发的技术途径,简化了移动Agent系统的开发过程。  关键词:.NET平台;移动Agent;Remoting;反射   中图分类号:TP311
摘要:针对当前ERP系统提高可重构性研发中存在的不足,本文按照领域工程的实施过程,对新一代ERP系统分别进行了需求分析、软件体系结构设计和应用系统实施方面的研究,重点分析领域内变化性需求的处理,最后提出了响应领域内变化性需求的实施策略。  关键词:新一代ERP系统;领域工程;构件;软件体系结构;变化性需求  中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)04-0973
摘要:随着信息技术在各个领域应用的擴展,越来越多的现代技术运用于教育教学中。该文主要介绍了Phocoshop图层样式的概念、知识及用法,以帮助学生理解理论知识,提高学生的学习兴趣,培养学生的动手能力及创新意识。  关键词:图像处理;图层样式;创新  中图分类号:TP317 文献标识码:A 文章编号:1009—3044(2009)08—1917—02
摘要:论文对传统的Fisher线性判别作了深入的分析,由于样本类间离散度矩阵不能很好的分开距离较近的样本类,为此该文又重新定义了样本类间离散度矩阵。通过改进其投影方向来减轻边缘类对特征分解的主导作用,从而提高了识别效率。  关键词: Fisher线性判别;人脸识别;离散度矩阵;边缘类  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)27-2054-02    To F
摘要:随着信息技术的快速发展,信息发布系统的应用已经越来越广泛。是否能够充分地利用计算机手段来发布学校信息,已经成为衡量一个学校信息技术发展的重要指标之一。为了提高学校信息发布工作效率的目标,采用基于XML(可扩展标记语言)信息发布系統的开发,已经成为学校信息发布研究的趋势。XML信息发布系统的实现和应用,有着广泛的研究和应用前号。  关键词:XML;XSLT;代码自动生成;信息发布
摘要:“c程序设计”是一门开设较为普遍的课程,目前参考资料繁多,教学方法多样。但在非计算机专业的实际教学中却存在一定的问题。该文通过分析总结,提出了实际教学中应注意的几个问题。  关键词:c程序设计;教学;非计算机专业  中图分类号:G642  文献标识码:A  文章编号:1009-3044(2009)07-1654-01