中文网页自动分类的研究及其应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：q520fang

【摘要】

：

互联网技术的迅猛发展，推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息，包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据，因此

【作者】

：

谢光华

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2007年期

【关键词】

：

网页分类信息抽取特征选取向量空间模型支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网技术的迅猛发展，推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息，包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据，因此，如何在浩瀚而又芜杂的网络信息海洋中迅速有效地获得所需的信息是信息处理的一大目标。基于人工智能技术的网页分类系统能依据网页的文本内容的语义将大量的网页自动分门别类，可以大大缩短在线文档的整理时间，从而更好地帮助人们把握所需信息。近年来，网页分类技术也逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合，有效地提高了信息服务的质量。分析了网页与普通文本的不同，根据Web页面的特征，在分析其结构的基础上，实现了一个基于网页DOM树结构的网页分类有效文本信息抽取的系统。该系统有效地过滤掉了首页类型以及图片类型的网页，并有效地剔除有主题类型网页中的标签、广告、图片等内容，保留网页正文及相关信息。对网页分类所涉及到的关键技术，包括分类有效信息抽取、中文分词、维数约简、文本表示模型、分类算法以及分类评价标准等进行了全面的介绍及深入的研究和探讨。通过分析影响特征权重的因素、经典的TF~*IDF公式的不足以及网页文档的结构特征，在前人研究的基础上，给出了“TF~*IDF~*CHI”的权重计算方法。将特征对单个网页的重要性、对网页集的重要性、对类别的重要性和网页的结构特征等因素考虑进来，提高了有用特征的文档描述能力和类别区分能力。并且设置了两组实验针对本文中给出的改进部分进行检验，实验结果表明本文的分类有效信息的抽取和特征权重计算方法对网页分类是有效的，与传统的利用纯文本分类技术实现网页分类的结果相比，分类结果的F1值平均提高7％以上。将网页信息抽取器和网页分类器应用到公安局“网上作战”系统的一个子系统，即公安网刑侦信息抽取系统与发布系统中，实现公安网刑侦信息的抽取和分类发布，并为公安局“网上作战”系统中的其他子系统，如信息比对系统等提供数据支持，取得了不错的效果。

其他文献

基于激光测量数据的车型识别研究

目前传统的车辆自动识别技术主要是基于视频图像处理的识别技术。这种技术的核心在于必须获取到被检测车辆清晰的视频图像。然而在实际应用中,由于存在着雨雪,雾霾等天气干扰

学位

点云数据去噪点云数据精简车型识别神经网络

小型PKI在校园网的应用与优化研究

开放的网络环境和活跃的用户群体、大量的网络服务和有限的资金投入，决定了校园网安全管理必将是一个更加复杂的问题。总的来看，当前校园网安全需求集中体现在加密解密、身份认

学位

校园网PKI身份认证网络安全密钥管理数字证书

Windows Mobile技术在移动销售终端中的应用及研究

Windows Mobile将熟悉的Windows体验扩展到了移动设备上,帮助用户充分利用时间,快捷获取所需信息,以及与家人朋友随时保持联系。它通过提供功能强大且灵活的平台,使开发人员

学位

移动商务移动销售Windows Mobile移动数据库

以Artifact为中心的多粒度复杂协作流程建模与验证

业务流程管理（Business Process Management，即BPM）旨在通过对活动、资源的优化组合，完成跨组织的合作，实现业务目标。自20世纪90年代提出了业务流程管理理论起，国内外众多的行业和

学位

业务流程管理粒度分解协作需求着色Petri网

CDN网络中基于服务质量的分布式路由研究

互联网的出现给人们的工作和生活带来了极大的便利,近年来随着互联网的快速发展,网络的应用趋于多样化。各种业务,特别是流媒体(如音乐,视频等)纷纷应用于网络,使得网络的访

学位

内容分发网络服务质量动态复制内容路由

基于UCON访问控制模型的分析与研究

随着网络技术的快速发展和普及,现代在社会的生产和生活都产生了巨大变化,信息安全问题也越来越成为人们关注的焦点问题。计算机访问控制是信息安全领域中的一项重要技术,正

学位

访问控制使用控制模型信任管理数字版权管理引用监控器

关于使用数控机床实现在线测量——系统连接的探索与研究

先进制造技术AMT(Advanced Marelfacturing Technology)的飞速发展对质量保证体系提出了更高的要求。由于加工中心具有自动换刀、换工件、进行复合加工等优点，因此得到了广泛

学位

加工中心在线检测触发式测头误差分析路径规划系统连接

印度洋大眼金枪鱼渔业资源评估模型研究及其应用

2014年中国的海洋生产总值（Gross Ocean Product，GOP）达到了59936亿元，较上一年度增长了近7.7％，GOP更是占了国内生产总值（Gross Domestic Product，GDP）的9.4%，由此可见海洋渔业在国民经

学位

大眼金枪鱼渔业资源评估模型捕捞死亡系数反射壁理论

基于SharePoint Search的内容管理应用

随着现代社会的逐步发展,信息每天都在以惊人的速度增长。如何保证这些信息被充分利用,实现信息价值的最大化,是一个非常迫切需要解决的问题。从传统信息系统到内容管理系统

学位

内容管理SharePointMOSS搜索文档管理

关联规则挖掘算法研究及其应用

关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系。频繁集挖掘是关联规则挖掘的关键步骤,它在很大程

学位

数据挖掘关联规则Apriori算法频繁项集十字链表

中文网页自动分类的研究及其应用

与本文相关的学术论文