基于标题与文本距离的网页去噪算法的研究

来源 :中小企业管理与科技·下旬刊 | 被引量 : 0次 | 上传用户:kency2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。
  关键词:网页去噪 STU-DOM 词共现
  0 引言
  随着计算机技术的迅猛发展及计算机广泛应用于社会生活的各个领域,我们正步入一个信息化的时代。目前学界对网页数据的应用研究很多,例如WEB数据的深度挖掘、不同的搜索引擎等。从技术上来看网页数据包含各种内容,如广告、导航等,然而对于不同的研究,没必要包含所有的内容,本文将通过计算标题与文本距离来实现网页去噪。
  1 相关基本概念解析
  STU结点:
  该结点从基本理论上来说,只是一种语义文本单元。在具体应用过程中,STU结点和块之间是一一对应的。
  STU-DOM树:
  STU-DOM树是由经过添加描述语义的DOM树而生成的。
  块:
  在HTML网页中,根据网页不同特点而划分出的不同区域,这些不同的区域,就称之为块。
  解析:
  将HTML文檔转化为DOM树的过程称之为解析。
  局部阈值:
  由块内链接和内容决定,其计算公式
  LocalCorrelativity(STUi)= (1)
  LinkCount(STUi)=LinkCount(STUcij) (2)
  ContentLength(STUi)=ContentLength(STUi)(3)
  其中,STUcij表示STUi的第j棵子树,LinkCount(STUi)是STUi的linkcount属性值。
  词共现:简单来说,它指的是在不同的两个网页文本中,相同的词汇共同出现,通常可以用这个相同词汇出现的频率来分析文本相似度的高低。
  2 算法描述
  在本论文使用的网页正文信息提取系统中,共计包含如下五个步骤:HTML解析、HTML分块、语义分析器、剪枝器、正文提取器。
  第一步:HTML解析。在这个过程中,主要是找到HTML与DOM树的映射关系,并在这种映射关系确定的前提下,按照正确的方法,STU树与DOM树之间的精确结合。在这个过程中,需要使用解析器(Html Parser),解析器在这一步的主要功能是解析HTML文档,在顺利将HTML文档解析后,才可以将其转化为DOM树。
  第二步:HTML分块。与第一步不同的是,在这一步的主要过程中,要使用到分块器,通过分块器来实现对语义分析器的调用,然后再向节点添加语义的基本属性,同时还需要把DOM树转化为STU-DOM树,让添加语义的节点作为STU结点。这一基本过程,在分块后给节点添加的语义信息模式如下图1所示。
  第三步:语义分析器。这一步要对语义信息块中的非链接文字总数和链接总数进行精确计算,在此基础上,在STU-DOM中对应子树中的非链接文字总数和链接总数,分别用contentlength和linkcount属性表示。
  第四步:剪枝器。这一步用到的是递归算法思想,依照这种算法思想,进行粗剪枝。
  局部阈值为Lcm,如果LocalCorrelativity(STUi)>Lcm (取值为>0.03),则对其进行剪枝。
  图2 网页提取算法流程
  第五步:正文提取器。算法思想:用递归方法提取TABLE或DIV标签下的文本结点的内容,通过计算标题与结点词共现频率及文本间相似度实现正文内容的提取。
  设文本一中所包含的词语为{t1,t2,…,ti…,tn}。则文本一可用一个n维向量W={W1,W2,…,Wi…,Wn}表示。
  3 实验结果
  为了有效测试本方法的性能,设置两组测试。
  第一组实验:利用上述方法对网页(图3)进行有效信息的抽取,结果如图4所示。
  图3 网页实例
  第二组实验:本组实验的实验对象,是YQ-CCT-2006-
  03的部分语料,在该实验中,局部阈值取值为0.03,文本相似度取值为0.1。这是经过实验评估后,获得较好的效果。
  提取结果如下:
  图4 网页提取结果图
  准确率=正确提取的网页数/总网页数
  表1 网页提取实验结果
  从以上的实验结果可以得知,这种基于标题与结点词共现频率及文本间相似度的网页去噪方法,能够很高效的提取网页正文内容。其还具有完整的保存网页主题内容这一优点,在进行的实验中平均准确率达到了94.9%,平均处理速度达到了14.8s/网页。
  4 结束语
  随着Web的迅速发展,许多研究如信息检索、数据挖掘等由传统领域转到了Web上。面对充满了噪音的网页,如何去除网页上的噪音对于提高信息检索、网页分类的研究效果至关重要。实验结果显示,本文提出的方法,有效去除网页噪音,保留了正文内容。
  参考文献:
  [1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.
  [2]王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主体信息自动提取[J].计算机研究与发展,2004,42(10):1786-1792.
  [3]赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):143-145.
  [4]丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(6):175-177.
  作者简介:
  苏秀芝(1981-),女,山东日照人,助教,硕士,研究方向:数据挖掘。
其他文献
[摘 要]翻转课堂是颠倒传统课堂教学模式,将知识传授与知识内化的顺序进行翻转的新教学模式。初中信息技术课不是所有教学内容都适合翻转,且有的教学内容可以课前翻转,有的教学内容可以课内翻转。  [关键词]翻转课堂;信息技术;先学后教  [中图分类号] G633.67 [文献标识码] A [文章编号] 1674-6058(2018)09-0033-02  翻转课堂(Flipped Classroom)是
万山特区猫坡汞矿位于扬子准地台和华南褶皱带的过渡带上,属扬子准地台贵阳复杂变形区东缘的湘黔汞矿带南段,北东-北北东向构造对成矿流体的运移和矿体就位起主要控制作用。汞
期刊
在安徽省金寨县沙坪沟发现了大型斑岩型钼矿。该矿床具有规模大、品位富、矿体集中、经济价值高等显著特点。目前己控制矿体东西长1000米、南北宽900米,单孔最大见矿厚度945米
摘要:随着经济全球化的到来,竞争对手随之增多,企业竞争理念必将由对抗型竞争转向合作型竞争,组织战略联盟。选定战略目标和战略伙伴,实现优势互补,增强整体竞争力;同时加强自身的管理创新、技术创新,为合作、加盟创造条件,以新的市场现和竞争观,创造“双赢”的市场竞争新格局。  关键词:经济全球化 竞争战略 战略联盟  中图分类号:F270 文献标识码:A  文章编号:1004-4914(2009)03-2
2012年10月31日晚中润国际与英国瓦图科拉金矿公司签署股份增发认购协议。认购完成后,中润国际成为瓦图科拉金矿公司的第一大股东,将对瓦图科拉金矿公司董事会进行改组,对瓦图科
4月19日,国土资源部科技与国际合作司副司长孙宝亮在第五届中国企业跨国投资研讨会上表示,近年来中国企业在矿产资源勘探开发、矿产品加工贸易等方面积极开展国际合作,并取得显
智利矿业部日前表示,政府将通过“锂矿操作特殊合同”方式对该国锂矿开采公开招标,以此提升智利在全球锂矿市场的竞争力。
对企业的业绩进行客观公正的评价,是投资者进行投资、决策者进行决策的重要参考依据,也是经理人员晋升的重要参考指标。本文主要研究了EVA作为企业业绩评价指标的巨大优势,并
摘要:公路路基的施工质量是整个工程的关键,本文便对做好路基工程的施工准备工作、做好路基工程的排水工作、认真做好路基试验段、路基填料的控制、重点防治路基工程的质量通病以及做好路基工程的进度控制工作、加强对施工现场的技术管理等方面的内容进行了介绍,从而论述了公路路基工程施工现场的管理和控制的工作。  关键词:公路路基工程 施工 进度 技术 通病 控制 管理  公路作为国家公共基础建设,其设计标准和工程