基于关键词聚类和节点距离的网页信息抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户：sying1

【摘要】

：

大部分网页信息抽取方法都针对特定的网站，例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时，必须人为地增加抽取规

【作者】

：

邓健爽郑启伦彭宏林旭东

【机构】

：

华南理工大学计算机科学与工程学院人工智能实验室

【出处】

：

计算机科学

【发表日期】

：

2007年4期

【关键词】

：

聚类信息抽取机器学习节点距离 Cluster Information retrieval Machine learning Instance of

【基金项目】

：

广东省科技攻关项目（2005810101033）（A10202001）、广州市科技攻关项目（200422-D0091）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大部分网页信息抽取方法都针对特定的网站，例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时，必须人为地增加抽取规则或者提供新的训练网页集。而且，当网站的模版改变时，也要重新设计这些规则或重新输入训练网页集。这些方法难以维护，因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法，该方法基于特定主题的关键词组和节点距离，能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示，该方法能够不依赖网页的来源而

其他文献

大规模网络中IP流流速分析

作为Internet流量模型研究的重要组成部分，IP流流速反映了各种不同应用类型的流量在网络中对实际负载的贡献情况。通过分析和寻找对IP流平均流速产生主要影响的若干关键因子，可

期刊

网络行为IP流流速网络被动测量大规模网络统计学Network behavior IP flows rate Network passive mea

面向人体生理信号监测的无线个域网的研究

针对医疗保健领域人体生理监护需要，提出基于IEEE 802．15．4的人体生理信号监测无线个域网（Physiological Monitoring-Wireless Personal Area Network，PM-WPAN），在人体范围内采集、

期刊

无线个域网IEEE802.15.4人体生理监测网络性能WPAN IEEE 802. 15.4 Physiological monitoring s

一种基于小世界网络中的Web服务智能路由算法

依据小世界网络具有特征路径短、聚类度大的特点和服务的聚集性，将提供Web服务的对等节点构造成为具有小世界属性的网络，在服务的查询、路由中可以提高效率和减少通信量。Web服

期刊

WEB服务Web路由小世界网络蚁群算法Web service Web routing Small-world network Ant colony

Dwarf尺寸的进一步缩减

Dwarf不仅降低了数据立方的存储开销，而且具有结构简单、易于实现、查询和维护等优点，是一种比较理想的数据立方组织方法。为了进一步缩减Dwarf的存储尺寸，本文通过研究Dwarf结

期刊

数据立方DWARF浓缩Dwarf冰山DwarfData cube Dwarf Condensed dwarf Iceberg dwarf

一种高维聚类算法及在洗钱侦测中的应用

从技术的角度看,洗钱侦测问题实际上是一个数据分析问题。本文首先给出了一个可疑交易判定模型,并提出了一个基于超图模型的高维聚类算法,运用该算法从案例库中形成可疑交易

期刊

高维超图模型聚类洗钱High dimension Hypergragh model Clustering Money laundering

基于重复模式的Web信息抽取

网页中的大量数据记录往往以重复的HTML结构进行有规律的组织，从而形成一致的表现形式。根据这一特征，本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的

期刊

WEB信息抽取重复模式后缀树Web information extraction Repeated pattern Suffix tree

数据挖掘技术在IT基础设施监控系统中的应用

本文介绍了数据挖掘技术在IT基础设施监控系统中的应用，着重阐述了采用业界广泛采纳的数据挖掘流程标准CRISP-DM，利用时序数据挖掘技术和一元线性回归预测技术从监控历史数据中

期刊

IT基础设施监控数据挖掘CRISP-DM线性回归时序数据IT Infrastructure monitoring Data mining CRIS

基于内容相似度的对等网络信用模型研究

由于缺乏有效的信用管理机制,对等网络节点间存在着大量的欺诈行为,从而严重影响了整个网络的服务质量.本文在已有模型的基础上提出了一种对等网络信用模型,它把节点共享内容

期刊

对等网络信用相似度自适应Peer-to-peer network Trust Similarity Self-adaptation

影响压电式传感器工作性能的主要因素

压电式传感器通常都需要接触测量，它的灵敏度、频响特性和重量，是衡量其工作性能的主要指标。分析讨论了影响其工作性能的主要因素。

期刊

传感器灵敏度工作性能压电式SensorSensitivetyWork capability

一种基于包排队方式的网络路径可用带宽探测方法

对IP网络路径带宽的探测是目前网络研究领域的一个热点。本文提出了一种针对端到端的网络、基于包排队方式的双向双步长网络路径可用带宽的探测方法。该探测方法由时延监视和

期刊

瓶颈串路包排队双向双步长可用带宽双程时延Bottleneck link Packet queuing Bi-direction bi-step

基于关键词聚类和节点距离的网页信息抽取

与本文相关的学术论文