基于相似页面的Web信息抽取系统的实现

来源 :计算机应用 | 被引量 : 28次 | 上传用户:ccicc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。
其他文献
提出了描述计算网格资源的空间模型,按网格资源的性质将网格资源组织在n维空间中,并按资源之间的相似程度对资源进行关联,该模型不需建立资源的全局视图,系统复杂度不会随着资源数量的增加而增大。基于资源空间模型的资源查找算法能够保证资源查找沿着正确的方向进行,从而提高资源搜索效率。同时还给出了该算法的时间复杂和空间复杂度分析。
[目的]探讨局部振动对家兔脂质过氧化的影响.[方法]将家兔随机分为低强度组(接振强度3.03m/s2),中强度组(接振强度6.13 m/s2),高强度组(接振强度12.25 m/s2)和1个对照组,分别
本文提出,应结合新形势,针对新问题、新情况,创新工作思路,找准工作的结合点,促使效能监察工作在内容上更具针对性,做法上更具示范性,结果上更具时效性,作用上更具促进性。本
企业进行人力投资会增大企业的人力资源价值。但是由于投资契约的利益取向的差异使得投资过程实质表现为主体双方的博弈,因此对投资过程的博弈分析是投资决策的关键所在。本文
XBRL(eXtensible Business Reporting Language,可扩展商业报告语言),是XML(eXtensible Markup Language,可扩展标记语言)技术于财务报告信息交换的一种应用。XBRL应用扩展到财政信
上市公司财务治理的政府管制作用受到发达国家较大关注,国内关于公司财务治理层面的政府管制机制研究较少。本文基于“结构-行为-绩效”框架。分析上市公司财务治理管制的“结构
引入本质R-内射模的概念,给出了本质R-内射模的一些性质,并用本质R-内射模刻画了正则环.
[目的]探讨广西出生缺陷的发生原因及其环境致畸危险因素的危险度.[方法]用历史性队列研究方法对广西7城市2000年出生的905例围产儿(包括281例出生缺陷儿和624例正常儿),对孕妇在孕期接触的各种环境致畸危险因素用COX比例风险模型进行危险度评价的模式拟合.[结果]发现母亲孕期服用激毒类药其出生缺陷发生的相对危险度RR=5.006,其次是母亲孕期接触农药RR=2.216,母亲有妊娠合并RR=2
讨论了大型视频点播系统的负载均衡技术,提出了一种新的负载均衡算法,该算法包含了优化的负载分配策略和一种新的影片冷/热播自动识别策略、存储调度管理及突发事件处理策略,实际测试表明该算法可行、有效。
[目的]检测冠心病患者血浆中抗热休克蛋白70(HSP70)抗体水平与正常人有无差异,并探讨其与冠心病发生发展之间的关系.[方法]采用Western-ELISA方法检测192例冠心病患者中抗HSP