基于页面分类的Web信息抽取方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：mainonewf

【摘要】

：

通过对现有Web信息抽取方法和当前Web网页特点的分析，发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题，为了弥补以上两个不足，文中提出了一种基于页面分类的Web信

【作者】

：

成卫青于静杨晶杨龙

【机构】

：

南京邮电大学计算机学院

【出处】

：

计算机技术与发展

【发表日期】

：

2013年1期

【关键词】

：

WEB信息抽取正则表达式页面分类 HTMLPARSER 结点树 Web information extraction regular expressio

【基金项目】

：

国家自然科学摹金资助项目（61170322,71171117）,软件开发环境国家蘑点实验室开放课题（SKLSDE-2011KF-0X）,江苏省自然科学基金资助项目（BK2010524）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过对现有Web信息抽取方法和当前Web网页特点的分析，发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题，为了弥补以上两个不足，文中提出了一种基于页面分类的Web信息抽取方法，此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取，分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型，并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块，并利用正则表达式自动生成抽取规则．提高_r抽取方法的通用性和准确性。

其他文献

浅论加强内部会计控制

本文论述了设计内部会计控制应考虑相互牵制、协调配合、定岗定位的原则,加强内控应采取职务分离、授权批准、制定有效内部会计控制制度、加强内外监督、提高人员素质等措施,

期刊

企业会计内部会计控制控制制度

基于VSM和LDA模型的FAQ问答系统

传统的搜索引擎返回的数据太过庞大，很多情况下用户不能快速地找到自己要的答案。在这种情况下，文中引入FAQ系统。FAQ中如何找到最佳匹配答案，是文中的研究重点。改进了传统的VS

期刊

VSM相似度计算LDA(LatentDIRICHLETAllocation)主题-词分布VSM similarity calculation L

关于“两课”教学改革的理性思考

"两课"教学改革的对策是:紧跟时代步伐,转变教学观念,明确教育目标;发展教学理论,优化教学内容,丰富学生知识;研究学习心理,创新教学方法,提高教育效果;创建评估机制,改革考

期刊

“两课”教学教学改革评估机制考核方式学生心理激励机制the two courses' teaching reform reflecti

癌性疼痛合并肺部感染109例临床特征分析

近年来,恶性肿瘤的发病率呈逐年上升的趋势,癌痛是恶性肿瘤最常见的症状之一,据世界卫生组织(World Health Organization,WHO)统计数据,50%以上的晚期恶性肿瘤患者有中度至重

期刊

肺部感染癌性疼痛临床特征

基于页面分类的Web信息抽取方法研究

与本文相关的学术论文