网页中信息部分自动识别研究

来源 :黄冈师范学院学报 | 被引量 : 47次 | 上传用户:xdh188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。
其他文献
第一章总则第一条为加强和规范财务会计工作,防范金融风险,保障国有资产的安全,根据《中国农业银行关于对工作人员违反规章制度处理的暂行规定》、《中国农业银行稽核处罚暂
1999年10月,《李伯安画集》出版后,我常常思索其中的遗憾和不足。因深深内疚于对伯安生前照顾的不周,且力图对其有所报答和补偿,故编辑画集时,充斥满脑子的意识,竟然都是豪华、庄重、大气
《列宾美术学院学生肖像素描集》画册的出版,缘于一次偶然的机会,编者在列宾美术学院工作时,恰好赶上学院的沙龙里正在展出油画系索柯洛夫工作室学生的短期素描课汇报展,展出作品
期刊
在我国金融业,如何把握高新科技和技术带来的高超智能,已成为现代商业银行提升市场竞争力的必由之路。银行卡作为先进的电子货币支付工具在这一技术浪潮中应运而生,已成为各
我党历来十分重视廉政文化建设,积累了许多经验。本文认为,这些经验主要有:廉政文化建设与党的建设工程相结合,理论创新与理论武装相结合,廉洁自律与严格管理相结合,严厉惩治
絮语也是唠叨,它之所以胜过唠叨,是因为絮语更文些,似乎节奏也舒缓,让你静下心来,不必烦躁地听,如闻流水,如沐春风,如拂枝条。 青年国画家兰铁成的《砚边絮语》,我看胜过他的唠叨──
将医院的各种信息管理系统通过局域网集成一个集成化的网络体系是一个需不断研究与完善的问题,通过大量的研究和尝试,在该院已集成实现了医院信息系统的大部分功能,提出了在
在我国经济进入重大变革的磨合转型时期,作为依附于经济运行的农行信贷市场正经历着深刻的历史变化。欠发达地区农行如何顺应经济体制改革和经济发展大势,适时调整计划体制下
“笔墨当随时代”,书法的内容和样式都有开拓,创新必要,沈鹏先生肯定了郑珉同志的大胆努力,相信这类作品会给读者带来多方面的启发和有益的思考。创作更需要认真向传统学习,本期介
第一章总则第一条为加强内部管理,防止经济案件的发生,保障资金组织工作的健康发展,根据《中国农业银行关于对工作人员违反规章制度处理的暂行规定》、《中国农业银行稽核处