基于文本语义图的网页分类算法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:ydaf4rx3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随互联网的高速发展,互联网网页数量呈爆炸式增长。作为信息的载体,互联网上每时每刻都在产生大量主题各异的Web网页文本,数据量巨大,且内容越来越丰富。如何从海量的、动态的信息资源中获取所需的信息,成为一个重要的研究课题。Web网页分类技术能够实现对互联网中海量数据的快速检索、过滤、分类和归档,提高人们对于网络数据的利用率,降低搜索信息的时间,是网页大数据处理的基础。但基于统计的网页分类方法往往存在忽略词语语义和网页结构信息的问题,并且在分类过程中存在特征向量维度过高的现象,这会增加运算负担,进而影响分类效率。为了解决基于统计的网页分类算法存在的问题,提出一种基于网页文本语义图的Web网页分类算法。该算法通过搭建网页语义图来刻画网页语义信息,并在此基础上进行特征权值计算,进而实现网页分类,提高网页分类效率。同时,对特征选择算法做出改进,以进一步降低空间维度,增大信息密度。本文做了以下工作:(1)提出LP-TIF特征选择算法。论文针对TF-IDF算法中词频TF对网页文本内部信息表现不足的问题,提出一种在词频基础上融合词性、词位置等多个特征来表现词语对网页重要性的改进方法。然后引入词袋模式,利用同义词、相似词精简,对特征空间进行整合规范,进一步降低空间维度。(2)提出网页文本语义图搭建方法。论文提出一种兼顾词语相似性和文本相关性的网页语义图搭建方法。使用特征词词袋集作为语义图节点集,先利用词语相似性为语义图搭建相似边,然后提出一种新的基于共现词度量词语相关性的方法搭建相关边,最后对边进行合并,完成语义图搭建。(3)提出WordRank权值计算方法。论文在图结构的基础上,引入PageRank节点排序算法对特征节点权重进行计算,并结合文本语义图作为加权有向图的特点,针对节点权重和语义边权重对算法做出适应性改进,提出WordRank权重计算方法。最后分别对特征选择算法和基于网页文本语义图的网页分类算法的有效性进行验证。实验表明,相较于TF-IDF算法,基于LP-TIF和词袋的特征选择算法可有效降低空间维度,提高算法时间效率。并且,基于文本语义图的网页分类算法不仅能够很好的提高分类准确率,还可以优化网页分类效果,提高算法的稳定性。
其他文献
吉林省长仁地区基性-超基性岩体位于中亚造山带东段,处于华北克拉通和兴蒙造山带两个大地构造单元衔接部位。该区基性-超基性岩体位于古洞河断裂以北的活动造山带,呈北西-北
冰裂隙作为冰川冰架表面一类典型特征,对于研究全球温室效应、冰架运动趋势、冰架稳定性具有重大意义,同时也是直接研究冰盖崩解的最直观因素,并且存在大量的冰裂隙以及被雪覆盖的隐伏裂隙,对研究人员的人身安全产生了巨大的威胁,因此冰裂隙的探测至关重要。目前主要的冰裂隙探测手段包括探地雷达、光学遥感、SAR影像以及雷达测高技术。其中SAR影像具有可全天时、全天候工作,穿透性强,不受云层干扰和太阳光照影响等优点
椎间盘炎(Discitis)是近些年才逐渐认识的疾病。美国医学索引(Index Medicine)自1989年才将之定为一索引词。其他命名有椎间盘化脓性感染、化脓性椎间盘炎、椎间盘感染(Inter
会议
随着我国加入国际禁烟组织以来,卷烟生产总量逐年降低,导致烤烟库存量增加。因此,如何合理的利用烤烟资源,实现去库存化成为了烟草行业亟待解决的问题。烟草蛋白中含有全部必需氨基酸,可利用价值高,经加工后可应用于于饲料、食品、医药、生物活性肽等多方面多领域,具有重大的研究意义。本文针对烟草蛋白提取所存在的耗时长、过程繁琐、蛋白含量低、应用面窄、不适宜工业提取生产等问题,对烤烟粗蛋白的提取工艺、氨基酸组成和
随着IEEE 802.11网络的不断普及,WiFi接入点(Access Points,APs)已遍布城市的各个角落。如果可以获取这些WiFi接入点的位置信息,那么将有助于推动各种WiFi相关应用(例如基于WiFi的室内外定位、恶意WiFi接入点查找和新增WiFi接入点部署等)的发展和各种新型应用的出现。目前,针对WiFi接入点定位的研究普遍采用对数正态距离路径损耗(Lognormal Distan
当今世界,信息技术飞速发展,计算机软件在人们生活中变得不可或缺,软件的质量对日常生活甚至社会发展都会产生重大影响。人们对软件产品的依赖程度越来越深,对软件质量的要求
毫米波大规模MIMO(multiple-input multiple-output)是未来5G(5thGeneration)移动通信最有应用前景的技术之一。但是,毫米波频段射频链路功耗很高,因此,功耗成为毫米波大规模MIMO技术的主要瓶颈之一。在移动通信系统中,预编码技术不可缺少。全数字预编码在大规模MIMO系统下因功耗过高不能实现。因此,为了降低功耗,目前普遍采用混合预编码。现有的混合预编码分为
能源危机和环境污染是制约人类社会可持续发展的两大世纪性难题,开发新能源材料和有效地处理环境污染问题迫在眉睫。光催化技术是通过光催化剂将太阳能用于分解水产氢、污染物降解、有机物合成等领域,被认为是解决该世纪性难题的理想途径之一。过渡金属氧化物复合材料因其稳定性好、催化活性高被广泛应用于精细化工、环境催化等领域。但是传统的制备方法工艺复杂、影响因素多、可重复性差,而且制备出来样品的催化效果一般。针对存
在人类社会原有的物理活动逐渐向互联网虚拟空间活动演变过程中,人际交流进入了在线社交时代,社交网络层出不穷且规模不断扩大。随着社交网络平台的涌现信息技术得以快速发展
曲线流是运用几何与分析的方法研究平面上或者空间中特定曲线如何按照一定的方式形变.过去的数十年里,曲线流引起了社会的高度关注,激起不少学者的探究热情.在曲线流的研究中,熵公式及其单调性有重要的应用.本文主要包括以下部分:第一章介绍了曲线流的研究背景和现状,列出了一些与曲线流相关的基本公式和基础知识.第二章简要介绍了Hamilton的熵并给出了相关定理的证明.第三章研究了经典曲线收缩流(?)的熵,利用