基于XML的自动学习Web信息抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户：ni0ni

【摘要】

：

因特网给我们提供了巨大的信息量，在信息量极其丰富的Web资源中，蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息

【作者】

：

冀高峰汤庸道炜吴桂宾黄帆王鹏

【机构】

：

中山大学计算机科学系,广东天讯电信科技有限公司

【出处】

：

计算机科学

【发表日期】

：

2008年3期

【关键词】

：

信息提取半结构化自动学习规则库 XML Info extraction Semi structural Auto learning Regulati

【基金项目】

：

基金项目：国家自然科学基金项目（60373081,60673135）、广东省自然科学基金项目（04105503,5003348）、教育部“新世纪优秀人才支持计划”资助项目.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网给我们提供了巨大的信息量，在信息量极其丰富的Web资源中，蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现，可以提高信息获得的效率。信息抽取可以从网络上分析和发现有用的信息，废弃冗余的数据，提取用户知识领域的知识。本文分析了基于XML的Web信息提取，讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型，通过自动学习来获取信息抽取规则，实现Web信息的自动提取。

其他文献

微课在高职英语教学中的实践与思考

随着社会竞争压力的增大,学好一门外语对学生来说是十分必要的。如何提升英语教学效果是国内高职英语老师在教学工作中的重中之重。因此,文章先对高职院校当下的英语教学现状

期刊

高职院校英语教学微课教育实践思考

用Pi演算为业务过程建模的生命周期

随着企业竞争日趋激烈，业务过程建模技术变得越来越重要。由于形式化方法降低了二义性并为模型的分析和验证提供了可行性，因此形式化的业务过程建模技术在学术界引起了很多人的

期刊

PI演算生命周期业务过程建模Pi calculus Life cycle Modelling business process

公钥加密算法LUC的并行实现方法

LUC是基于数论的公钥密码体制,相比RSA公钥密码体制,具有能够抵抗共模攻击的优点。但LUC算法因实现难度大,运算时间长而难以用于实际加密。而影响其运算速度的主要因素是密钥长度和模幂算法。本文参考相关文献工作,得到将密钥进行分段计算的公式,而后利用LUC序列的性质将密钥进行分段计算,并在多核系统下实现了LUC并行算法,从而提高了LUC算法的执行效率。

期刊

LUCAS序列密码体制密码算法Lucas sequence Cryptography Cryptographic algorithm

基于局部和全局的特征提取算法及在人脸识别中的应用

提出了一种基于局部和全局特征的特征提取算法。该算法不仅能保持数据集的局部性,同时也考虑了数据集的全局性,使得降维后的数据既能保持邻近关系,又能从整体上较好地重构和展现。PCA()能较好地展现原数据集,LPP能保持局部邻近关系,算法结合了这两个算法的思想,但由于LPP没有考虑类别信息,故先对LPP进行改进,给出了一种有监督的局部保持投影算法,使得提出的算法能更加有利于分类问题。通过人脸识别实验,验证

期刊

特征提取局部性全局性LPP主成分分析算法人脸识别Feature extraction Locality Globality LPP PCA

羊传染性胸膜肺炎诊断

羊传染性胸膜肺炎又称羊支原体性肺炎,是由多种支原体引起的一种高度接触性传染病。病羊以高热、咳嗽,有纤维素性胸膜肺炎为特征。典型病理特征为胸腔有大量淡黄色浆液纤维素

期刊

接触性传染病纤维素性胸膜肺炎羊支原体性肺炎胸膜粘连病理特征心包积液支原体

高校课堂《立体裁剪》课前准备有效性的探究

文章结合教学工作实践,思考在实施高效课堂立体裁剪课程中,课堂前期准备过程对教学效果有效性的相关影响因素的探究及思考,如何做好课前准备工作,这对实训教学具有重要的指导

期刊

高校课堂立体裁剪课前准备有效性

P2P流媒体激励机制研究

相对于传统的P2P文件共享系统，P2P流媒体系统的激励机制更为必要。分析并总结了当前P2P流媒体系统中已提出的比较有代表性的几种激励机制：基于信誉的、基于市场的、基于惩罚的

期刊

P2P流媒体文件共享系统激励机制激励模型Peer-to-Peer media streaming Incentive mechanism

四川山区血吸虫病流行区新感染及再感染人群免疫特征的比较

本项研究通过对日本血吸虫再感染病例及新感染病例多项免疫学指标进行了比较。结果显示反复感染病人对再次感染的体液免疫应答，明显强于初次感染病例，细胞免疫系统对再次感染的

期刊

日本血吸虫病新感染再感染细胞免疫体液免疫

中药治疗肝郁气滞型癫痫患者抑郁的效果

目的探寻中药治疗肝郁气滞型癫痫患者抑郁的效果。方法选择80例肝郁气滞型癫痫合并抑郁患者,均来源于本院2020年1月-2020年10月期间收入,按随机数字表法分成两组,对照组和

期刊

肝郁气滞型癫痫抑郁中药治疗西医治疗

产后妈妈如何正确应对恶露期

产后恶露是一种生理现象,指的是女性产后从阴道排出的子宫创面出血、粘液、子宫内膜等物质,这是产后妈妈必须要面对的一个时期,产后恶露期通常会持续4-6周左右。

期刊

产后妈妈恶露期

基于XML的自动学习Web信息抽取

与本文相关的学术论文