一种新的Web链接提取模型

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户：dsgver454g

【摘要】

：

以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工

【作者】

：

苏杭严建援

【机构】

：

EECS Department Vanderbilt University,Nashville,TN 37235,USA,南开大学商学院,,天津300071,中国

【出处】

：

清华大学学报(自然科学版)

【发表日期】

：

2006年S1期

【关键词】

：

搜索引擎链接提取统一资源地址(URI)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。 With the goal of fault tolerance, correctness, comprehensiveness, high efficiency and scalability required by search engine link extraction module, a new design idea of link extraction model is proposed. The model divides the link extraction process into information extraction, information processing, information analysis and information storage. The information is obtained by using the HTM L grammatical analysis method to obtain the URI data from the document. In the information processing phase, the initial data is refined by using the UR I parsing algorithm. The information is then further filtered and filtered during the information analysis; the result is stored in a flexible data structure. Through the comparison test, it confirms that this new link extraction model has obvious advantages over the traditional methods in various indicators.

其他文献

谈换乘方式之高架站与地下站换乘

随着城市建设的不断发展,城市轨道交通线网逐渐完善,换乘站及其换乘方式关系着整个线网交通能否提供便捷高效的服务与更好地发挥线网优势。基于此,文章从地铁常见的换乘方式

期刊

高架站地铁车站换乘站

阳光体育理念下江苏中小学学生体质健康促进及影响因素

随着教育体制的不断发展和完善,中小学生的整体素质得到很大的提高,但是中小学生的体质健康普遍较弱,影响了中小学生的全面发展。所以基于阳光体育理念下,中小学生不仅要学好

期刊

阳光体育理念江苏中小学学生体质健康影响因素

《材料科学基础》课程思政的要素融合探索

通过《材料科学基础》案例教学,将《材料科学基础》知识点与课程思政要素相结合,在教学过程中,从知识点的学习中得到启示:不忘初心,砥砺前行。增强文化自信,做人诚实守信,有

期刊

材料科学基础课程思政协同育人

碳酸盐岩台地边缘沉积结构差异及其油气勘探意义——以川东北早三叠世飞仙关期台地边缘带为例

随着研究的深入，逐渐认识到碳酸盐岩台地边缘带（简称台缘带）具有沉积结构和演化的差异性，其不但记录了古地理格局及其演化过程，同时也对相关油气储层的发育具有重要的影响。以四川

期刊

沉积结构差异碳酸盐岩台地边缘鲕粒滩储层飞仙关组川东北

论司法公正对促进社会主义和谐社会的作用

在构建社会主义和谐社会的系统工程中,推进司法体制改革、坚持司法公正具有重要作用。本文分析了司法公正与构建和谐社会的关系;实现司法公正在构建社会主义和谐社会中的作用

期刊

司法公正司法体制改革和谐社会

直流大功率接触器磁场—电路一体化建模分析方法研究

直流高压接触器广泛应用于电动汽车、电池备份和不间断电源系统等多个领域,特别适用在高压、大电流场合,其可靠性高,使用寿命长。然而传统直流驱动方式线圈耗电发热严重,直接

学位

接触器节能驱动电路联合仿真径向基函数

超声施振方式对纯铝凝固组织细化规律的研究

分别采取静态连续施振和动态间歇施振两种方式对工业纯铝熔体进行超声处理，并根据空化效应和声流效应理论详细分析了铸锭凝固组织的细化规律。实验结果表明，两种施振方式对凝固

期刊

铝熔体施振方式超声振动凝固组织晶粒

服务接触对互联网理财产品持续使用意愿的影响研究

自2013年6月由支付宝和天弘基金联合推出的余额宝后,各种类余额宝类理财产品在互联网平台陆续推出,P2P网贷平台也迎来井喷式的增长,受到冲击的传统银行业也不甘示弱,纷纷推出线上理财产品,互联网理财市场“蓝海”一片。不过随着时间的推移,以余额宝为代表的互联网理财产品陆续出现收益率下降、增速规模放缓、获客成本居高不下等问题,不少互联网公司为了快速占领市场,经常开启烧钱的掠夺用户模式,行业竞争愈加激烈,

学位

互联网理财产品SOR模型服务接触感知价值持续使用意愿

给水管网中铁稳定性问题及其研究进展

介绍了给水管网中出现的铁稳定性问题,分析了管网水中铁不稳定的原因和危害,总结了国外关于铁稳定性问题的相关理论,提出我国应开展铁稳定性的相关研究.

期刊

给水管网水质稳定性腐蚀铁释放现象

“上”、“上头”为什么有了表原因、理由的用法

<正> (一)前言在中古汉语里,特别是从元代到明代,在和蒙古语关系密切的资料中,方位词“上“上头”,由于受蒙古语的干扰、影响,开始有了表原因、理由的意义,这在以前的汉语里

期刊

中古汉语因果关系方位词假定条件《现代汉语八百词》《儿女英雄传》

一种新的Web链接提取模型

其他学术论文