网络商品信息搜索与抽取技术应用研究

被引量 : 1次 | 上传用户:JIMCZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络购物逐渐的被人们所接受,电子商务也快速的发展起来。然而面临网络中丰富的商品,如何从中找到满意的商品信息,成为目前网络用户所面临的问题之一。网页信息搜索与抽取技术是解决该问题的重要途径之一,可细分为网页搜索和信息抽取。网页搜索是指从互联网中搜索网页,目前主要的网页搜索技术有目录搜索、全文搜索以及元搜索。信息抽取是指对网页中的信息进行结构化处理,输出结构化信息,可以分为基于自然语言、包装器、本体、HTML结构和Web查询五种信息抽取技术。现有的网络商品信息搜索工具如比价网、爱购物、比价助手等采用人工进行规则抽取,自动化差。本文对网络商品信息搜索和抽取技术进行了深入的研究和探讨,设计了一种“双层”元搜索引擎,并针对元搜索技术的特点对FindDR信息抽取算法进行了改进。主要工作如下:1)提出了一种“双层”元搜索引擎。该方法通过百度搜索引擎搜索购物网站,提取其中包含的购物网站站内引擎信息,并以这些搜索引擎为子引擎实现对网络商品搜索。通过“双层”元搜索引擎可以实现对子搜索引擎的自动维护。2)对FindDR算法进行改进。FindDR算法是一种适用于对具有重复结构网页进行信息抽取的信息抽取算法,本文通过元搜索引擎搜索结构网页与搜索词的对应关系对FindDR算法进行改进,提高了算法的运行效率。3)将以上设计用JAVA语言实现并运用在一款网络比价软件的开发中,通过实际的大量网络商品搜索实验,验证了系统可以自动添加和维护子引擎并对商品信息进行高效抽取。
其他文献
目的探讨大蒜素对体外培养的鼠肝癌细胞MM45T.Li生长的抑制和诱导细胞凋亡的作用。方法用MTT法检测药物效应,透射电镜及流式细胞仪观察大蒜素处理MM45T.Li细胞后细胞凋亡和细胞
球面2-DOF并联机构具有沿球面移动的两个自由度,可以应用于球面上点的定位设备,具有重要的应用前景。球面5R并联机构是其中结构最简单的一种,但研究表明,其工作空间内存在较多的
随着湖南省高速公路通车里程的增加,雾对交通安全的影响越发明显。高速公路受大雾的影响相比普通公路和城市道路要严重的多,交通事故的规模和影响更大,特别是雾区路段时常发生多
一、我国传统的音乐教育模式历史上我国的音乐教学模式经历了师傅带徒弟'梨园'式、'学堂乐歌'课时期、前苏联凯洛夫的五个环节模式、借鉴照搬一些国外音乐教
目的了解浙江大学学生的膳食营养状况.方法采用问卷法对浙江大学全校范围内采用整群抽样的方法,按年级以班为单位,随机抽取8个小班,总计学生240人,进行了3日膳食营养调查.结
罗马共和国末期的征服战争给罗马带来了巨额的财富,同时也改变了罗马的社会风尚。在上层阶级的家庭里,由于妇女逐渐掌握了家庭的财权,她们开始分享丈夫的权利和荣誉,成为共和
为了解上海地区宠物真菌性皮肤病的流行情况,采用回顾性调查的方法,通过查阅部分宠物门诊的病例记录、整理分析病例报告,确定了上海地区犬猫常见真菌性皮肤病的种类,以及在不
随着社会经济的发展,市场竞争愈演愈烈,企业要想赢得客户,必须对市场具有准确的判断力和决策能力。而市场的占领绝不是主观臆断就能奏效的,因此要认真研究各种市场因素作用的机理
随着Web技术的更新,互联网迎来了更加广阔的发展,越来越多的应用以Web方式推出,并且以基于动态Web技术的深度Web逐渐取代传统的静态Web,对这些深度Web信息提取一直是近年来信息提
通过大蒜素及大蒜素前药处理食管癌Eca9706细胞,观察细胞形态,测定乳酸脱氢酶(LDH)活性和DNA降解。结果表明,癌细胞变圆、变小,活细胞数目减少,脱壁细胞和细胞碎片增多。DNA-Ladder