基于标签密度的自适应正文提取方法

来源 :郑州大学学报(理学版) | 被引量 : 6次 | 上传用户:bands007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
其他文献
针对传统遗传算法存在局部搜索能力差、未成熟收敛和多峰优化时常有漂移现象的缺陷,充分利用格雷码来消除Hamming悬岸问题,实数编码来获得大空间搜索任意精度的优势,从而获得
<正>~~
期刊
采用激光测量装置在不同温度下研究了吡虫啉在乙醇、丙酮、丁酮、二氯甲烷、1,2-二氯乙烷中的溶解和超溶解特性,得到了吡虫啉在有机溶剂中的结晶介稳区.吡虫啉在有机溶剂中的
针对IEEE 802.16e系统中用户在切换时,竞争目标基站广播轮询的上行测距Ranging资源会造成较大时延,提出了一种新策略,即目标基站用多播轮询代替广播轮询分配上行Ranging资源
简要介绍了模糊规划并综述了模糊规划的建模理论,提出在原有混合智能算法研究的基础上将进化策略融合进混合智能算法中来解决原有算法易陷入局部最优解的问题,提高了求解精度
将链码技术应用到字母与数字的混合识别中,用链码跟踪其轮廓,提取形状特征.针对链码间的差异性,设计了多级分类器,获得了良好的分类器品质.方法简单有效、存储量小,具有实用性,可嵌入到车牌、图书索号识别等应用领域.
选用合适的训练、选择BP神经网络结构、连接权系数的方法和船舶实航数据,建立BP神经网络.用同一艘船的另两段实航数据验证该神经网络的泛化性能,在其中一段数据中人为加入缓
提出一种从用户浏览网页的行为中获取用户需求知识的方法.在领域内将产品进行需求项分解,从服务器日志中提取用户点击的网页及其次数,并计算出用户对每个需求项的值和可信度,由此
提出一种新的基于视频水位检测算法,能对设立于水中的标尺刻度进行自动和实时的测算.针对水面图像特有的属性,在将视频转换到HSV颜色空间的基础上,利用色调分量基本不受光照条件影响等特性,以一种基于能量函数的统计模型和可变区域的策略,解决了图像模糊、背景复杂且有倒影干扰等不利条件下,传统边缘检测算子无法准确测算的问题.
将潜在语义索引(LSI)应用于垃圾邮件过滤领域,并将其与向量空间模型(VSM)和经典的邮件过滤器SpamAssassin系统进行比较.另外,对基于词提取技术的邮件文本特征集合和SpamAssassin系统