基于逆向匹配的电子商务网站实体模板半自动构建方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:liubingonline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DoM树进行剪枝,删除无关节点,对保留下来的信息决的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。
其他文献
介绍一种新型的可编程时间控制器.给出了控制器的原理、结构及其功能.
本文来自于实际工程应用,在串行通信收发电路中,加LED发光二极管作为收发指示灯时,如果直接驱动LED将会导致通信过程的不可靠甚至不可实现.本文针对该问题进行了分析研究,提
论文给出了测定声卡音质的好坏问题的一套解决方案.测试的方法不同于专用的检测仪器的测量,而是采用音频测试软件的方法.文中详细介绍了音频测试软件的设计和软件部分的算法,
该文研究属性依赖情感知识学习。首先提出了一个新颖的话题模型,属性观点联合模型(Joint Aspect/Opinion model,JAO),来同时抽取评论实体属性及属性相关观点词信息。在此基础上
利用HaNPV的Bac-to-Bac系统(Hanpvid)构建了双拷贝v-cath基因的重组HaNPV,即:除病毒自身的v-cath基因外,还带有由ie1启动子控制的早期表达v-cath基因的重组病毒dciHaNPV.Dotb