切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
Web页面清洗技术的研究与实现
Web页面清洗技术的研究与实现
来源 :计算机工程 | 被引量 : 0次 | 上传用户:maoxinlan
【摘 要】
:
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估,实
【作 者】
:
周源远
王继成
等
【机 构】
:
南京大学软件新技术国家重点实验室
【出 处】
:
计算机工程
【发表日期】
:
2002年9期
【关键词】
:
WEB页面
清洗技术
文本块
链接块
DOM
解析器
Internet
信息检索
Web page cleaning Text block Link blo
【基金项目】
:
国家自然科学基金项目'Web'信息过滤的智能化方法与协'Web作技术研究(60073030),,富士通研究所清洗技术项目
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统。文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估,实验结果表明该方案切实可行,清洗方法具有较快的速度和准确性。
其他文献
中国医疗技术能力与医疗质量水平显著提升
医疗技术能力和医疗质量水平直接关系人民群众健康,近年我国的医疗技术能力和医疗质量水平得到显著提升。本文总结了国家医疗质量管理工作的机制及特点,展示了在提升医疗质量
期刊
医疗技术
医疗质量
中国
某高校女大学生便秘与亚健康现状调查
由于女大学生的生理特点和繁重的学习任务,致使其坐位时间长,再加上不良的饮食、生活习惯及心理、精神压力大等原因,容易出现便秘现象。便秘不仅能引起肠道及肛门疾病,还可能因为
期刊
便秘
症状和普通病理学(类目词)
学生
遵义市城市居民贫血状况调查
目的:了解遵义市城市不同人群贫血患病流行病学特征,为实施有针对性的防治工作提供科学依据。方法:1.用多阶段整群随机抽样方法,抽取982名遵义市城区社区常住居民,用统-的标准
学位
贫血
患病率
膳食营养
饮食习惯
贫血知识
健康教育
一种针对中文搜索引擎改进的缓存策略
针对中文搜索引擎的发展现状以及不足之处,结合中文信息处理的特点,提出了一种能较大提高检索效率的自适应合作缓存的设计思想、数据组织方法以及管理机制.
期刊
INTERNET
中文搜索引擎
缓存策略
信息查询
中文信息管理
Search engineSearch technologyCooperating cache
从传播角度分析20世纪初评剧的繁荣发展历程及其对现代艺术传承的启示
评剧作为北方重要地方戏的一种,他的兴盛和发展就是艺术传播的过程,但随着时代的变迁,评剧的发展陷入困境。本文的研究旨在借鉴传播学者拉斯韦尔提出的“5w”模式理论,对20世纪初
期刊
传播角度
评剧
繁荣发展历程
现代艺术
改进的蚁群-遗传算法在优化航线中的应用
航线优化是一个重要问题。提出的改进算法是先通过限制、选择和更新信息素、控制周游次数,找出航线的满意解,大大缩短了搜索时间;再用所得较好的航线表示作为初始种群,指定为父体
期刊
MAX-MIN蚁群优化算法
单亲进化遗传算法
结合算法
航线优化
海尔曼螺杆菌的流行病学研究和致病性的活体评价
背景、目的:海尔曼螺杆菌(Helicobacter heilmannii,H.heilmannii),是除幽门螺杆菌(Helicobacter pylori,H.pylori)以外的唯一能够在人胃定植的螺杆菌属细菌,被视为胃炎的可
学位
H.heilmannii
培养
动物模型
细胞因子
粒子群优化的无线传感器网络仿真研究
研究优化无线传感器问题,针对延长传感器网络的寿命,保证簇的平均分布,提高簇的负载均衡,从而减少能量消耗。传统算法在确定簇首过程中由于忽略了邻居节点的状态信息,容易导
期刊
粒子群算法
无线传感器网络
路由协议
分簇
2009年青岛市黄岛区伤害住院患者流行特征及其住院费用分析
[研究背景]伤害是一个严重威胁人群健康的世界性重要公共卫生问题,其发生率高,因急救、康复及早死和残疾而花费巨额费用,造成的经济损失和社会负担远远超过任何一种传染病或
学位
伤害
住院病人
流行特征
经济负担
支票图像中打印体字符的分割和识别
和通常文档中的打印体字符分割和识别问题相比,支票图像中的打印体字符的分割和识别有其一定的特殊性。针对这种特殊性,该文提出了一套简单实用的算法。对于分割问题,主要是采用投影的方法解决印章、边框和底纹的干扰问题,对于字符识别,主要是采用了基于模板和融合的方法,从而有效地解决了上述问题,取得了比较满意的分割效果和较高的识别率。
期刊
阈值
打印体字符识别
支票
分割
Threshold Printed character recognition Check Segmentation
与本文相关的学术论文