文本分类语料库自动构建系统的研究与改进

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户：zhaodaxiang

【摘要】

：

语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要论题之一。目前我国在中文语料库

【作者】

：

李亚洲

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2011年01期

【关键词】

：

正文抽取网页消重语料库 Web数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要论题之一。目前我国在中文语料库的建设和应用上取得了不少的成果,其中一些也可以利用在文本分类领域。但随着信息处理技术的快速发展,语言信息处理领域内的各类应用需要大量的专业性强的文本分类语料库,而传统的语料库构建方法在时效性、专业性等方面并不能完全满足这些需求,因此文本分类语料库的构建已经成为一个十分重要的研究课题。本文主要研究并优化了一种自动构建中文文本分类语料库的方法,具体工作主要包括以下几个方面：1、分析研究了一个计算机语料库自动构建原型系统,熟悉理解了计算机语料库的相关理论以及该自动构建系统的设计思想与具体实现方法,在研究分析的基础上总结出了针对该原型系统的一些优化思路。2、研究并实现了一种基于网页密度特征的正文抽取方法。该方法通过将网页解析成文本块集,并计算所有文本块的密度特征后,使用决策树算法构建文本块的分类预测模型,然后根据这个分类模型识别分类网页的文本块,从而过滤出识别为正文块的文本块,构建成网页的正文信息。3、分析了网页消重的相关技术及现有的网页消重算法并简单比较了它们的优缺点,最后研究了一个基于Shingling的网页消重改进方法。该改进方法通过抽取网页的正文信息并转换成相应的文本文档,再利用词性属性提取出有实际语义的实词来表示文档,最后根据表示文档的特征项集合的元素个数之间的比值将待计算相似度的文本文档进行粗分,避免不可能相似的文档之间的相似度计算,从而提升文档集中的相似度计算性能。4、根据原型系统的优化思路将本文研究实现的网页正文抽取方法与改进的消重算法应用于该计算机语料库自动构建原型系统,并对优化后的系统进行了一定的分析与实验。从分析与实验结果可知,通过优化后的计算机语料库自动构建系统得到的文本分类语料库具有较高的准确度,在文本分类应用中有着良好的效果。

其他文献

改进PSO与模糊积分软件缺陷预测方法研究

随着计算机的广泛应用,计算机软件的需求量逐渐增大,如何高效开发高质量的计算机软件成为软件公司关注的问题。计算机软件的早期开发理念和方法在很大程度上限制了计算机的开

学位

软件缺陷预测分类粒子群优化模糊积分规则简化

网格中基于自适应容错机制的任务调度算法

网格作为一种异构的、动态的平台,其任务调度的目标是在满足一定的服务质量、性能指标和优先级约束的前提下,将可以并行执行的任务按照合理的分配策略映射到相应的资源节点上

学位

无线传感器网格任务调度自适应容错GridSim

P2P网络中信任模型的研究

随着P2P网络技术的发展,已经广泛应用到文件共享、电子商务和即时通信等诸多领域,目前已经成为计算机网络技术研究领域一个热点。由于P2P网络的动态性、自治性以及异构性等特

学位

P2P网络信任模型综合信任度激励机制

Web服务组合与验证相关技术研究

随着Web服务技术的快速发展,越来越多的稳定易用的Web服务共享在网络上,但是单个Web服务的功能一般比较简单,很多情况下不能满足用户的实际需要,为了更加充分地利用这些共享

学位

Web服务Web服务组合服务组合验证服务替换

云数据中心的能耗资源调度策略研究

随着云计算的应用和发展,数据中心规模的扩大,随之而来的是数据中心的能耗、资源利用率等问题日益突出。因此,设计高效的资源分配策略,提高数据中心的资源利用率,降低数据中

学位

云数据中心能耗遗传算法资源分配

高带宽时延网络中拥塞控制协议的研究

随着计算机网络技术的飞速发展、网络应用的不断丰富,各种网络环境逐步发展起来,如高速网络、无线网络、卫星网络等,其中大规模应用在互联网主干网络中的高带宽时延网络(High

学位

TCP拥塞控制高带宽时延网络环境自适应性

语音情感识别的特征选择与特征产生

语音情感识别是近年的热门研究领域之一,是人工智能、模式识别、语音信号处理与情感计算的交叉学科产物,在智能机器、人机交互、远程教学、刑事侦探、产品设计等各个方面都有

学位

语音情感识别特征选择特征产生基因表达式编程混合蛙跳算法

基于ITIL的NETCONF网络配置管理系统的研究与实现

简单网络管理协议SNMP由于其简单实用性被广泛应用于网络管理领域,然而由于SNMP本身的局限性,它主要应用于性能管理和故障管理,而很少应用于配置管理领域。为了弥补SNMP协议

学位

网络管理配置管理SNMPNETCONFITIL

下一代网络管理平台中NETCONF代理的设计与实现

随着网络技术的飞速发展,网络规模、复杂性、异构性逐渐增强。网络管理逐渐从单纯的网络资源管理扩展到较为复杂的网络系统资源管理。这些发展极大的改变了网络的规模和结构,

学位

网络管理下一代NETCONF代理XML

基于接口自动机的服务组合验证研究

目前,随着Web服务技术的不断推广与应用,面向服务的计算已经成为软件工程领域的研究热点。通过重用现有服务,将服务进行组合,企业能够更为快速有效的构建具有灵活、松耦合特

学位

接口自动机服务组合服务验证QoS需求

文本分类语料库自动构建系统的研究与改进

与本文相关的学术论文