基于体裁的中文网页自动分类的研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:tprgaefe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,因特网上信息数据量与日俱增,当人们利用搜索引擎检索关键词,面对其返回的一个庞大的相关网页链接列表时,常常还是难以寻找到自己真正所需的资源。解决该问题的重要途径之一就是从体裁的角度对网页进行分类,在分类的基础上再进行检索可以大大提高检索的精度。 网页的体裁分类不同于传统的基于主题和内容的网页分类。网页的体裁分类是按网页的类型进行分类,是综合考虑网页的风格、样式、内容、功能等各种信息的分类方式,是一种“垂直于”网页内容分类的分类方式。目前,网页体裁分类还处于全面研究阶段,技术尚不够成熟,尤其是国内的研究才刚刚开始。 本文对网页体裁分类进行了初步的研究和探讨,提出了一种网页体裁分类的方法。该方法结合体裁分类的特点使用可扩展的多维向量空间模型来表示网页,并能够自动选取体裁特征,在分类计算中根据不同类型的特征向量采用不同的相似度加权值,最后采用Java语言编写了程序实现了中文网页的体裁分类。其主要研究工作如下: (1) 本文归纳选取了因特网上常见的9种体裁类别,根据此类别人工收集了共1251篇网页文档,并对其加以类别标记后作为网页体裁分类的语料库。 (2) 借鉴文本分类的相关理论和技术,采用4维向量空间模型来表示一个网页。对网页的体裁特征进行了分析,采用标签、形态、内容、词性四种类型的特征向量共同来描述网页的体裁特征。 (3) 对网页体裁特征项的选取进行了研究和分析,并利用特征项频率、集中度和分散度三者结合的衡量标准对特征项进行自动选取。 (4) 对传统的K-近邻分类算法进行了相似度加权组合的改进,以适用于网页的体裁分类。 (5) 本文提出了网页体裁分类系统的总体设计,采用Java语言实现了整个分类系统,并系统进行了实验测试和结果分析。实验结果表明:开放测试分类的平均精度达到80%以上,达到了预期的目标,证明了网页体裁分类的可行性,为下一步更深入的探索奠定了初步的研究基础,也为未来网页体裁分类的实际应用提供了一定的理论支撑。
其他文献
随着信息化技术的不断发展,行业内部和行业间的业务数据量呈几何级数递增,海量数据的传输与处理难题成为制约信息化产业扩大的瓶颈,本文提出一种分布式海量数据并行传输设计
随着计算机网络技术、数据库技术的飞速发展,实时数据系统(RTDBS)的应用领域也越来越广。然而,越来越多的新的应用要求RTDBS在支持实时性的同时,也能提供对敏感信息的管理,如
多传感器图像融合技术是图像理解、计算机视觉等领域的一个研究热点,广泛地应用于目标识别、智能机器人和医学图像处理等领域,对国防安全和经济建设产生了重要影响,因此对图
本文通过比较国内外电力系统故障诊断方法和故障判断原则,提出了以专家系统为主,辅以模糊理论的方法,应用于变电站故障诊断仿真——对故障诊断结果可以确定的故障以专家系统为主;用模糊推理来处理故障诊断中不确定的信息。并详细介绍了知识库的建立过程。该变电站故障诊断仿真系统利用实际监控系统得到的开关和保护动作信息来诊断故障,根据保护和保护范围的对应关系,确定故障发生的位置。并提示运行人员应如何处理。本文提出所
随着多媒体技术的快速发展和图像信息的爆发性增长,图像数据库规模变得非常庞大,而这些图像中,包含人脸的图像更是引起了人们的加倍关注。如何有效的管理这些海量的人脸图像,
在多媒体技术日益广泛的今天,图像的通信和存储占有重要的位置,数字图像包含信息量巨大的特殊性使得压缩技术成为其关键,因而探索高效图像压缩编码算法无疑将成为当前通信和信号
近年来,随着通信网骨干网和局域网的巨大变化,“最后一公里”的接入网部分成了高速局域网和主干网之间的瓶颈。具有传输频带宽、容量大、抗干扰能力强等优点的无源光网络PON,
随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语
无线移动自组网(Ad Hoc networks)是一种新兴的网络技术,具有单独组网能力和自组织的特点,在军事、民用、灾害营救等领域具有广泛的应用前景,已成为当前无线通信领域研究的一
当前,精细农业、精准农业思想的提出为农业的发展开辟了新的空间。高新技术应用于农业生产对于降低农作物生产成本、增加农作物产量、提高农产品质量并在生产中减少对环境的