基于逆向匹配的电子商务网站实体模板半自动构建方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：liubingonline

【摘要】

：

Web页面中的主题信息一般分布比较集中，可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范，使得正向匹配难以生成嵌套结构准确的DOM树，该文提出一

【作者】

：

傅彦徐昭邦夏虎周俊临

【机构】

：

电子科技大学计算机科学与工程学院互联网科学中心

【出处】

：

中文信息学报

【发表日期】

：

2015年2期

【关键词】

：

逆向匹配 DOM树模板构建信息提取 reverse matching DOM trees template extraction information

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web页面中的主题信息一般分布比较集中，可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范，使得正向匹配难以生成嵌套结构准确的DOM树，该文提出一种通过逆向匹配的方法，构建完整的网页源代码DOM树。通过对DoM树进行剪枝，删除无关节点，对保留下来的信息决的节点标签进行人工选择与唯一性判定，从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取，是一种半自动、通用的方法，可用于信息检索系统中的信息采集。

其他文献

一种新型的可编程时间控制器

介绍一种新型的可编程时间控制器.给出了控制器的原理、结构及其功能.

期刊

可编程时间控制器单片机时钟电路看门狗Controller Clock

串行通信收发电路的可靠驱动研究

本文来自于实际工程应用,在串行通信收发电路中,加LED发光二极管作为收发指示灯时,如果直接驱动LED将会导致通信过程的不可靠甚至不可实现.本文针对该问题进行了分析研究,提

期刊

串行通信收发电路发光二极管驱动电路Serial communication Driving Stability

声卡音质软件测试系统

论文给出了测定声卡音质的好坏问题的一套解决方案.测试的方法不同于专用的检测仪器的测量,而是采用音频测试软件的方法.文中详细介绍了音频测试软件的设计和软件部分的算法,

期刊