数据抽取中领域网页的特征分析

来源 :民营科技 | 被引量 : 0次 | 上传用户：amincrazy

【摘要】

：

在数据抽取中,领域网页是多数具有特点的网页,包含了大量的领域术语。针对领域网页的特征总结,分析出有效的消除“噪音”的方法,为数据抽取做好坚实的基础。 In data extrac

【作者】

：

郭东峰

【机构】

：

新乡学院计算机与信息工程学院,

【出处】

：

民营科技

【发表日期】

：

2014年07期

【关键词】

：

领域网页 HTML Jtidy

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据抽取中,领域网页是多数具有特点的网页,包含了大量的领域术语。针对领域网页的特征总结,分析出有效的消除“噪音”的方法,为数据抽取做好坚实的基础。 In data extraction, domain web pages are the most characteristic web pages that contain a large number of domain terms. According to the feature summaries of domain web pages, we analyze the effective way to eliminate “noise” and make a solid foundation for data extraction.

其他文献

起重机触电的事故分析

对某市某石材加工厂起重机触电事故进行了分析,以期为同行提供帮助.

期刊

起重机触电事故分析

电力调度自动化网络安全问题探讨

主要针对我国电力调度自动化网络安全与现实的问题进行了探讨,分析了电力调度自动化的现状,并针对电力调度自动化的实现提出了一些建议。 Mainly for China’s power dispat

期刊

电力调度自动化网络安全

光纤光栅有效折射率的变化与纤芯曝光时间关系的研究

本文提出了一种测量光纤光栅有效折射率随曝光时间变化关系（ｎｅｆｆ～ｔ关系）的新方法，与常用的布拉格波长漂移测量法相比较，该法从理论上有更为准确的测量结果． In this paper, a new metho

期刊

技术及产品化研究"基金资助项目编号:863-307-11-4(03)

电力系统自动化维护的探讨

分析了电力系统自动化维护的必要性与要求,从拨号远程技术维护、以太网远程技术维护以及接地防雷系统维护等几个方面探讨了电力系统自动化维护的方法,分析了系统自动化维护技

期刊

电力系统自动化维护方法运用

筛管砾石充填井筒附近压降计算方法

认识到套管射孔砾石充填井井筒附近压降发生在 3个流动区域内 ,近井地带向射孔炮眼的汇聚流动区域 ,炮眼内砾石层的线性流动区域以及筛套环空砾石层中的发散流动区域 .以 Ber

期刊

防砂砾石充填炮眼压降计算模型

某桥梁用C45耐腐蚀水下混凝土配合比的设计与质量控制

在混凝土施工中,评价混凝土结构施工质量的优劣不仅仅是单纯满足混凝土强度等级及施工性要求,对影响工程使用寿命的混凝土结构耐久性,其技术要求已然成为评定混凝土结构质量

期刊

耐腐蚀水下混凝土碱含量电通量氯离子含量质量控制

C语言中文件操作的好处

主要介绍了C语言中文件操作的好处.

期刊

文件数据操作

刀具形貌激光视觉检测系统标定方法的研究

提出了一种适合于回转体刀具———钻头的激光视觉三维形貌测试系统 ,介绍了系统的组成和测量原理 ,讨论了系统中由于安装的倾斜和偏心等引起的测量光束不共面和多组测量数据

期刊

结构光钻头标定三维形貌

葛根淀粉的酶法水解及其水解产物的流变学特性研究

采用α-淀粉酶水解葛根淀粉,制备水溶性麦芽糊精,研究了影响葛根淀粉水解度(DE值)的因素,探讨了DE值与麦芽糊精溶解度的关系,并对麦芽糊精的流变特性进行表征.结果表明:随着

期刊

葛根淀粉α-淀粉酶DE值溶解度麦芽糊精流变性

计算机数据库入侵检测技术的运用研究

计算机网络技术应用领域日益广泛,安全性问题是影响其应用稳定性和可靠性的关键因素,针对现阶段计算机病毒等网络技术应用安全问题的出现,采取科学的措施进行控制和处理是非

期刊

计算机数据库安全入侵检测

数据抽取中领域网页的特征分析

与本文相关的学术论文