切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
基于标签密度的自适应正文提取方法
基于标签密度的自适应正文提取方法
来源 :郑州大学学报(理学版) | 被引量 : 6次 | 上传用户:bands007
【摘 要】
:
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
【作 者】
:
孙皓
董守斌
【机 构】
:
华南理工大学广东省计算机网络重点实验室
【出 处】
:
郑州大学学报(理学版)
【发表日期】
:
2009年01期
【关键词】
:
标签密度
锚文本密度
正文信息
网页去噪
tag density
anchor density
content information
Web denoi
【基金项目】
:
国家863计划项目,编号2006AA012196
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
其他文献
混合编码遗传算法在测试数据生成中的应用
针对传统遗传算法存在局部搜索能力差、未成熟收敛和多峰优化时常有漂移现象的缺陷,充分利用格雷码来消除Hamming悬岸问题,实数编码来获得大空间搜索任意精度的优势,从而获得
期刊
测试数据
遗传算法
格雷码
实数编码
黄金分割点
test data
genetic algorithm
Gray Code
real-coded
go
郑州大学学报(理学版)第43卷(2011年)总目次
<正>~~
期刊
吡虫啉在有机溶剂中的结晶介稳区研究
采用激光测量装置在不同温度下研究了吡虫啉在乙醇、丙酮、丁酮、二氯甲烷、1,2-二氯乙烷中的溶解和超溶解特性,得到了吡虫啉在有机溶剂中的结晶介稳区.吡虫啉在有机溶剂中的
期刊
吡虫啉
溶解度
超溶解度
结晶
介稳区
一种IEEE802.16e系统中减少切换时延的新策略
针对IEEE 802.16e系统中用户在切换时,竞争目标基站广播轮询的上行测距Ranging资源会造成较大时延,提出了一种新策略,即目标基站用多播轮询代替广播轮询分配上行Ranging资源
期刊
802.16e系统
切换
多播轮询
测距
时延
802.16e system
handover
multicast polling
Ranging
de
混合智能算法在模糊规划中的应用
简要介绍了模糊规划并综述了模糊规划的建模理论,提出在原有混合智能算法研究的基础上将进化策略融合进混合智能算法中来解决原有算法易陷入局部最优解的问题,提高了求解精度
期刊
进化策略
模糊规划
混合智能算法
evolution strategies
fuzzy programming
hybrid intelligent alg
边界链码在字母与数字混合识别中的应用
将链码技术应用到字母与数字的混合识别中,用链码跟踪其轮廓,提取形状特征.针对链码间的差异性,设计了多级分类器,获得了良好的分类器品质.方法简单有效、存储量小,具有实用性,可嵌入到车牌、图书索号识别等应用领域.
期刊
边界链码
轮廓跟踪
识别
boundary chain code
contour tracking
recognition
平台罗经故障检测的BP神经网络
选用合适的训练、选择BP神经网络结构、连接权系数的方法和船舶实航数据,建立BP神经网络.用同一艘船的另两段实航数据验证该神经网络的泛化性能,在其中一段数据中人为加入缓
期刊
平台罗经
故障检测
神经网络
stabilized gyrocompass
fault detection
neural networks
领域内用户浏览行为的用户需求知识发现研究
提出一种从用户浏览网页的行为中获取用户需求知识的方法.在领域内将产品进行需求项分解,从服务器日志中提取用户点击的网页及其次数,并计算出用户对每个需求项的值和可信度,由此
期刊
用户需求
知识发现
用户浏览行为
user requirement
knowledge discovery
user's browsing behavior
基于HSV空间的视频实时水位检测算法
提出一种新的基于视频水位检测算法,能对设立于水中的标尺刻度进行自动和实时的测算.针对水面图像特有的属性,在将视频转换到HSV颜色空间的基础上,利用色调分量基本不受光照条件影响等特性,以一种基于能量函数的统计模型和可变区域的策略,解决了图像模糊、背景复杂且有倒影干扰等不利条件下,传统边缘检测算子无法准确测算的问题.
期刊
水位检测
统计模型
颜色空间
能量函数
可变区域
water level detection
statistical model
HSV space
en
垃圾邮件过滤中潜在语义索引的应用
将潜在语义索引(LSI)应用于垃圾邮件过滤领域,并将其与向量空间模型(VSM)和经典的邮件过滤器SpamAssassin系统进行比较.另外,对基于词提取技术的邮件文本特征集合和SpamAssassin系统
期刊
垃圾邮件过滤
潜在语义索引
向量空间模型
spam filtering
latent semantic indexing
vector space mode
与本文相关的学术论文