基于标签路径特征的网页正文自适应抽取方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:luther2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web已经成为重要的信息发布平台。然而,Web网页中除了正文信息,还包含着导航、广告和版权信息等大量与网页主题无关的“噪音”信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果,同时也为这些系统的存储造成了负担。因此,网页正文抽取问题具有重要的研究意义和应用价值。本文开展的研究工作如下:(1)提出了基于标签路径特征融合的在线Web新闻内容抽取方法CEPF。设计了标签路径特征系,并提出一种方法将标签路径系中的特征融合为一个新的特征TPF。相对于标签路径中的每个特征,TPF都具有更好的区分网页正文和噪音的能力。在特征融合阶段,一种基于谱聚类的特征选择方法被用来删除冗余的标签路径特征。CEPF利用基于标签路径编辑距离的高斯平滑方法更新TPF特征值,基于平滑后的TPF值和最大类间方差法自适应地从网页中抽取正文信息。CEPF方法是无监督的。实验结果表明,CEPF是一种准确、通用且与语言无关的的Web新闻内容抽取方法。(2)提出了基于长文本标签比的网页正文抽取方法CELTR,该方法从网页DOM树中抽取对应正文信息的子树。CELTR使用最大类间方差法自适应地为DOM树的每个子树计算长文本标签比(LTR)。在大多数情况下,对应网页正文的子树比对应网页噪音的子树具有更高的LTR值,但仍存在少数反常的情况,为此我们在LTR的基础上扩展出LTRS和RLTRS。CELTR利用LTR、LTRS和RLTRS三个特征通过对子树聚类的方法从网页中抽取正文。CELTR方法是无监督的。实验结果表明,CELTR是一种准确、通用且与语言无关的的网页正文抽取方法,且可以保留网页正文原有的结构。(3)设计并实现了一个面向领域主题的Web新闻动态聚合系统,并应用本文的CEPF和CELTR方法解决该系统中的网页正文抽取问题。并分析了网页正文抽取算法在实际应用中的优势与局限性。
其他文献
随着“一带一路”国家倡议的持续深入,境外经贸合作区作为中国“一带一路”倡议的一部分,正在成为国际合作的重要平台,建造境外经贸协作区是近年来我国企业“走出去”的首要
目的观察大量输血对患者血小板数量的影响,为有效地指导临床输血提供参考依据。方法对本院28例大量输血患者分别在输血前后进行血小板计数监测。结果患者术前血小板结果均处
我最喜欢吃香肠,无论什么口味的都爱吃。
论文在总结划分居民生活碳排放(HCEs)类别的基础上,以中国HCEs量为测度指标,从时间和空间两个角度对1997—2012年人均HCEs进行分析,同时对2012年人均HCEs的空间格局分布及影
总大肠菌群是评价饮用水卫生质量的微生物学重要指标之一,本文主要对饮用水中总大肠菌群两种检测方法——滤膜法和酶底物法进行了分析比较,并讨论了两种方法的优缺点,为实际
【正】调整产业结构,转变发展方式,改革开放30年,河北经济所积聚的巨大力量,正在以一种全新的模式,极大地改变着这块5000年文明滋养的沃土。
奶奶脚扭了,妈妈去照顾奶奶。公司开年会,爸爸去参加。爸爸妈妈都不在家,我一个小豆丁自告奋勇看家。妈妈像个长官似的命令我:“要看好家,不要给陌生人开门!离窗户远点儿!不
<正>正如莎士比亚说过"一千个观众眼中,就有一千个哈姆雷特"。在"清科2007中国创业投资中期论坛"上,正在寻求资金支持的创业者们试图从与会的风险投资商身上找到答案,但风险
人才是当代社会发展最重要的资源,医疗行业的发展同样取决于医学人才的培养和使用,高层次人才已经是一个医院综合实力的象征,成为医院兴衰的决定性因素,但是目前医院高层次人
【正】2008年12月29日,由省直26个单位和市直45个单位参加的文化、科技、卫生"三下乡"集中活动在革命老区灵寿县隆重举行。此次活动拉开了河北省2009年度文化、科技、卫生"三