基于语义的多层Web文本分类技术研究

被引量 : 0次 | 上传用户:davidchen19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,大数据时代的到来,方便了人们的生活,人们对信息的检索变的更加快捷。可是,久而久之,人们发现获取所需知识的时间变的越来越长。这是因为互联网给我们带来大量有用的信息,但同时又给我们带来了更多的无用信息。如何筛选这些杂乱无章的信息,如何更快更准确的获取所需的知识,成了人们关心的热点问题,也是研究者们亟待解决的首要问题。为了解决上述问题,Web文本挖掘技术应运而生。Web文本信息抽取和Web文本分类是Web文本挖掘领域比较重要的两个分支。具体而言,Web文本信息抽取将Web上有用知识抽取下来,并组织成结构化的格式供后续研究使用。抽取的内容包括Web文本标题和Web正文信息。其中网页标题是一篇网页所要表达信息的最简单明了的概述。它对于网页信息的处理以及应用有很重要的意义。Web文本分类则是将结构化的数据归类,从而更加方便人们对信息的浏览与检索。由于在现实生活当中,人们通常分层浏览信息,所以本文采用的是层次化的文本分类,即将类别组织成树状形式,在一定程度上满足了人们检索信息的习惯,如Yahoo!网站就是采用这种层次化的结构树形式。本文介绍了Web文本信息抽取领域和Web文本分类的相关概念,国内外研究现状等内容。在前辈们的研究基础之上,给出了基于DOM树的Web文本层次化抽取方法和基于标题和基于语义的多层次Web文本分类方法。具体介绍如下:基于DOM树的Web文本信息层次化抽取方法,首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得的锚文本不是网页正文的标题,进而获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确抽取网页正文标题。对主题型网页来说,正文内容信息的视觉特征较为明显,如果将文本按块进行划分的话,因为正文信息比较集中,所以正文信息所在块包含的文字个数要多于其它块。本文就是依据文字的数目来判断正文位置的。实验表明,上述方法拥有实现简单、效率高等优点。基于标题和基于语义的多层次Web文本分类方法首先建立领域知识库和层次类别知识库。利用领域知识库进行标题命中,快速确定文档所属类别。对于标题未命中的文档,利用基于知网的语义相似度分类算法,按照自顶向下式层次分类方法,依次计算待测文档与各类别之间的语义相似度值,选取相似度值最大的类别作为待测文档的最终分类结果。实验表明,该方法能够满足实际需求。
其他文献
通过对甘肃省武山县退耕还林区域进行布点监测分析得出,武山县退耕还林工程树种选择合理,生态效益明显,最佳树种组成依次为:刺槐山杏混交林>刺槐侧柏混交林>刺槐纯林>落叶松
大学生创业孵化器对于促进当代大学生就业具有重要意义。本文介绍了大学生创业孵化器的种类,指出了它们在当前面临的主要矛盾,并通过分析得出了当前大学生创业孵化器面临的三
车前子与葶苈子是两种不同科属的中药材 ,其性状、成分、性味、功效等均有区别。但近年来由于车前子有一阶段价格上涨 ,一些不法药商却将葶苈子掺到车前子中销售。为避免混淆
随着社会的不断进步,我们对水库的需求越来越多,而勘察作为水库工程项目的一项基础性工作,其重要性不容忽视。进行水库工程建筑地质勘察的主要目的是为工程在开始建设之后的
协议管辖是当代各国管辖权法律制度中一项不可或缺的内容,也是协调国际管辖权冲突的一个重要方法。本文在介绍了协议管辖制度的发展及各国内法和国际立法关于协议管辖制度的
采用类比法和检查表法相结合的原则对某LED新建项目进行评价。结果显示,该建设项目拟使用氢氟酸、氨气、氯气等高毒物品及X射线装置,因此将该项目定义为职业病危害严重的建设
随着社会、经济的快速发展,精神文化层面的缺失致使民俗文化越来越受到人们的重视。湘西苗族文化的研究始于二十世纪初民俗研究者的田野调查;一直隐居于群山之中的苗族人民与
食物网是群落中各种生物有机体通过营养关系连接成的集合体。关于食物网的基本结构、HSS与MS观点的争论、食物链长度、与食物网大小相关的特性、食物网连接中的问题以及小瀑
建立了一个历史急修案例的资源库,将所有已经完成的故障急修及其处理时间归类到故障字典中。当用电用户拨打95598供电服务办理热线故障报修并提供报障内容,急修作业人员就可
农村基层政治合法性的建构直接影响了乡村秩序的产生,而不同历史时期不同的合法性建构方式又产生了乡村秩序的不同类型。在传统社会时期,"简约主义"式的合法性建构方式产生了