一种基于内容规则的网页去噪算法

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:kqdnf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。
其他文献
表象训练是在体育运动实践中运用最为广泛的心理训练方法之一,也是运动心理学研究的重要内容。本文通过对大量表象训练相关理论研究的回顾,分析表象训练在竞技运动中研究的理论
采用文献综述、问卷调查等研究方法,对沈阳市区600名全民健身路径(以下简称“路径”)使用者进行实地调查。利用SPSS软件从定量的角度对沈阳市区全民健身路径系统进行整体研究。
为了解沈阳体育学院体育专业大学生心理防御机制特点,采用防御方式问卷(DSQ)对334名体育专业大学生进行调查。结果发现:体育专业大学生更多运用成熟防御机制,有时也用投射、消耗倾
目的:通过大鼠跑台试验,了解运动前肌糖原储备不同对大鼠血激素变化的影响。方法:88只6周龄Srague-Dwley大鼠,经处理分为正常(n=40)、低肌糖组(n=40)和空白对照组(13=8),经过坡度零,速度1
采用模型分析方法,对国际标准化组织(ISO)《ISO23081-2:2007文件元数据概念与实施问题》标准中提出的“法规三元组”元数据模型进行研究和分析,提出元数据模型的基本概念,“法规三
7月2日至4日,2014年全国体育院校田径锦标赛在我校举行。国家体育总局科教司司长蒋志学,巡视员、副司长李维波,教育处处长隆胜军,全国体育院校竞赛协作会主席孙义良,执行主席、武
利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。
职业体育俱乐部核心竞争力评价指标体系选取的方法,是客观评价其竞争力的重要途径,为如何选取到正确的评价指标提供了可操作性的工具。为了得到适应性较强的系统评估指标,必
This presentation focuses on the complex issue of managing digital rights for long-term preservation. It describes the strategy and the methodology adopted with
通过核心扩展及白顶向下的方法构建院士本体,解决如何表达“院士”概念这一问题。文中详细叙述院士本体的构建思路及具体构建过程,并给出院士实例的部分收集模板、实例封装关键