中文网页自动分类的研究及其应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:q520fang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅猛发展,推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息,包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据,因此,如何在浩瀚而又芜杂的网络信息海洋中迅速有效地获得所需的信息是信息处理的一大目标。基于人工智能技术的网页分类系统能依据网页的文本内容的语义将大量的网页自动分门别类,可以大大缩短在线文档的整理时间,从而更好地帮助人们把握所需信息。近年来,网页分类技术也逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。分析了网页与普通文本的不同,根据Web页面的特征,在分析其结构的基础上,实现了一个基于网页DOM树结构的网页分类有效文本信息抽取的系统。该系统有效地过滤掉了首页类型以及图片类型的网页,并有效地剔除有主题类型网页中的标签、广告、图片等内容,保留网页正文及相关信息。对网页分类所涉及到的关键技术,包括分类有效信息抽取、中文分词、维数约简、文本表示模型、分类算法以及分类评价标准等进行了全面的介绍及深入的研究和探讨。通过分析影响特征权重的因素、经典的TF~*IDF公式的不足以及网页文档的结构特征,在前人研究的基础上,给出了“TF~*IDF~*CHI”的权重计算方法。将特征对单个网页的重要性、对网页集的重要性、对类别的重要性和网页的结构特征等因素考虑进来,提高了有用特征的文档描述能力和类别区分能力。并且设置了两组实验针对本文中给出的改进部分进行检验,实验结果表明本文的分类有效信息的抽取和特征权重计算方法对网页分类是有效的,与传统的利用纯文本分类技术实现网页分类的结果相比,分类结果的F1值平均提高7%以上。将网页信息抽取器和网页分类器应用到公安局“网上作战”系统的一个子系统,即公安网刑侦信息抽取系统与发布系统中,实现公安网刑侦信息的抽取和分类发布,并为公安局“网上作战”系统中的其他子系统,如信息比对系统等提供数据支持,取得了不错的效果。
其他文献
目前传统的车辆自动识别技术主要是基于视频图像处理的识别技术。这种技术的核心在于必须获取到被检测车辆清晰的视频图像。然而在实际应用中,由于存在着雨雪,雾霾等天气干扰
开放的网络环境和活跃的用户群体、大量的网络服务和有限的资金投入,决定了校园网安全管理必将是一个更加复杂的问题。总的来看,当前校园网安全需求集中体现在加密解密、身份认
Windows Mobile将熟悉的Windows体验扩展到了移动设备上,帮助用户充分利用时间,快捷获取所需信息,以及与家人朋友随时保持联系。它通过提供功能强大且灵活的平台,使开发人员
业务流程管理(Business Process Management,即BPM)旨在通过对活动、资源的优化组合,完成跨组织的合作,实现业务目标。自20世纪90年代提出了业务流程管理理论起,国内外众多的行业和
互联网的出现给人们的工作和生活带来了极大的便利,近年来随着互联网的快速发展,网络的应用趋于多样化。各种业务,特别是流媒体(如音乐,视频等)纷纷应用于网络,使得网络的访
随着网络技术的快速发展和普及,现代在社会的生产和生活都产生了巨大变化,信息安全问题也越来越成为人们关注的焦点问题。计算机访问控制是信息安全领域中的一项重要技术,正
先进制造技术AMT(Advanced Marelfacturing Technology)的飞速发展对质量保证体系提出了更高的要求。由于加工中心具有自动换刀、换工件、进行复合加工等优点,因此得到了广泛
2014年中国的海洋生产总值(Gross Ocean Product,GOP)达到了59936亿元,较上一年度增长了近7.7%,GOP更是占了国内生产总值(Gross Domestic Product,GDP)的9.4%,由此可见海洋渔业在国民经
随着现代社会的逐步发展,信息每天都在以惊人的速度增长。如何保证这些信息被充分利用,实现信息价值的最大化,是一个非常迫切需要解决的问题。从传统信息系统到内容管理系统
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系。频繁集挖掘是关联规则挖掘的关键步骤,它在很大程