面向电子商务的深层网入口挖掘研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:perfew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务在近二十年的蓬勃发展取得了世人瞩目的业绩,并以一种前所未有的方式改变着传统的商务活动的模式和格局,更深刻地影响着人们对商务的认识和理解,改变着人们的生活和工作方式。随着网络规模在全球的迅猛发展,Internet上的Web站点及网页数量在以爆炸性的趋势增长同时随着网络技术的不断进步,越来越多的Web数据库需要通过网络查询入口才能进行访问,学术界称其为深层网(Deep Web)。经相关研究机构和商业机构的调查,万维网中深层网的数据存储数量非常巨大,其中电子商务数据占了很大的比重。这些电子商务数据具有很高的商用价值。然而由于这些电子商务网站网页形式与内容开发的独立性,造成了Web数据库,特别是查询入口的异构性。正因为此原因,自动的从电子商务网站中获取有价值的信息和数据变成了一件十分具有挑战性的任务。本文针对深层网挖掘中目前还没有很好解决的如何让机器从语义上理解深层网中的入口信息问题,充分分析了深层网中电子商务入口中文本标签和查询元素之间的关系以及查询元素之间的关系。除此之外,从深层网入口的位置特征、布局特征和显示特征三个方面分析了深层网入口的视觉特征。通过大量电子商务网站深层网入口的观察的基础上得到了一些置信度很高的启发式规则,从而提出了基于深层网入口的可视化特征和本体工具WordNet分析深层网入口元素的语义关系来更好的挖掘出人们易于理解的深层网入口语义层次结构的方法。该方法首先需要对深层网入口页面数据进行预处理。然后,利用基于可视化特征的页面分割算法构建可视化模块树并利用可视化对树中的文本信息进行聚类及标签信息的识别。最后充分利用深层网入口中的标签信息间的语义关系构建出合理的标签树并通过查询元素与标签之间的视觉特征关系对标签树和查询元素进行匹配,从而提高了挖掘语义信息的准确度,进而提高了深层网信息的获取效率和覆盖率。此外本研究利用UIUC网站提供的研究数据对提出的方法进行了准确度的实验,实验表明,相对于以往的深层网入口挖掘方法,本文提出的方法在准确性方面具有更好的表现。最后对本研究进行了总结,并提出了未来继续研究的方向。
其他文献
数学思维是学生学习数学基础知识的思维导向,是促进学生知识运用与解决问题能力提升的有力武器.小学是培养数学思维的基础阶段,所以,在小学数学中,教师需要根据学生的认知规
发挥课程的育人功能,实现“课程思政”的意义十分重大,任务也非常艰巨.要树立“课程思政”理念,既要解决好“课程思政”理念为什么要融入课程教学,也要解决“课程思政”理念
学生通过积极地参加数学活动,从而积累数学活动经验,达到提升数学功力的目标.教师在为学生构建学术活动平台的过程中,要始终具有心细如发的观察力、高屋建瓴的洞察力,从而能
数学是小学阶段较为抽象的学科,为了确保学生能够掌握更多的基础知识,需要对原有的教学方法进行创新,也能适应新课改发展要求.从教学实践活动中能够看出,在小学数学教学过程
软件产业的发展使得软件标识符规范得到越来越多的关注,许多学者从不同角度制定标识符命名规范。由于不同类型的标识符在程序中起到的作用是不同的,表达的含义也不尽相同。因
“应用文写作”是许多高职院校开设的一门基础课程,“应用文写作”课程具有鲜明的技能性、实用性和实践性.随着就业岗位要求的不断提升,对学生的语言表达能力和文字运用能力
随着新课改的推进,对我国的小学数学教学提出了新的要求,在教学的过程中不能只注重提高学生的数学知识理解能力以及解题能力,而是要更加重视提升学生的数学素养.由于小学生的
推理是一种常见的思维方式,是学生由已知通往未知的一种重要途径,而小学中高年级的学生已经具备初步的逻辑思维能力,在实际教学中,我们可以有意识地让学生接触丰富的材料,让
期刊
数学虽然不像语文那样属于文字学科,但在教学过程中,板书仍然十分重要,其是教师开展课堂教学活动的一种重要手段.通过板书,能够帮助学生梳理出课堂知识结构,提高学生的课堂学
在五年一贯制背景下,高职语文教师在课堂教学中需要改变以往的教学理念和教学模式,以提高教学水平,更好地推动高职语文教学改革.基于此,以五年一贯制高职语文课堂教学为研究