基于页面分类的Web信息抽取方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:mainonewf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则.提高_r抽取方法的通用性和准确性。
其他文献
本文论述了设计内部会计控制应考虑相互牵制、协调配合、定岗定位的原则,加强内控应采取职务分离、授权批准、制定有效内部会计控制制度、加强内外监督、提高人员素质等措施,
传统的搜索引擎返回的数据太过庞大,很多情况下用户不能快速地找到自己要的答案。在这种情况下,文中引入FAQ系统。FAQ中如何找到最佳匹配答案,是文中的研究重点。改进了传统的VS
"两课"教学改革的对策是:紧跟时代步伐,转变教学观念,明确教育目标;发展教学理论,优化教学内容,丰富学生知识;研究学习心理,创新教学方法,提高教育效果;创建评估机制,改革考
近年来,恶性肿瘤的发病率呈逐年上升的趋势,癌痛是恶性肿瘤最常见的症状之一,据世界卫生组织(World Health Organization,WHO)统计数据,50%以上的晚期恶性肿瘤患者有中度至重