面向文本分类的文本特征学习技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:baliver110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网上文档资源日益丰富的情况,文本分类旨在自动对文档归类,使人们便于收集和管理各种文档,因此文本分类具有广泛的应用背景和较高的实用价值。但是,现存文本分类系统仍然存在很多问题。 本文研究工作紧紧的围绕文本特征学习,从不同方面展开文本特征的自动学习。作者在前人工作的基础上提出一些新的处理技术和模型,取得一些研究成果。主要创新点包括: ●提出一种自动学习领域关联词的算法,并把学习到的领域关联词用作文本特征,构造一个无指导的文本分类系统。该算法应用Bootsrapping的学习框架,从大规模的无标注文本语料中,计算候选词和领域种子词集的关联度,从中选取关联度大的词做为新的领域关联词。该算法输入是大规模的无标注文本语料和少量种子词。接着,把领域关联词用作文本特征,构造一个无指导的文本分类系统。该文本分类系统不用任何的人工标注分类语料,只需要每个类别手工构造少量的种子词(3-10个)。通过这个算法,我们可以在新的分类体系中很快构建出新的文本分类系统。 ●提出一种弱指导的文本分类系统的构建方法,该方法使用大规模无标注语料来改善分类器的训练效果。训练过程:首先,使用小标注语料来训练初始最大熵分类器;用训练好的最大熵分类器对无标注文本语料进行类别标注,从中选择置信度高的文档作为下一轮训练时的训练语料;再次训练分类器;如此循环训练、标注,直到学习结束。也就是利用大规模的无标注文本语料,来改善基于小标注训练集的最大熵模型分类器训练效果。 ●提出一种基于全局信息的词聚类模型-globalCM。在聚类过程中,该模型充分利用当前所有簇的信息来参与相似度的计算,克服了旧有模型只考虑相关的两个簇信息造成聚类效果差的问题。实验表明,globalCM的词聚类效果优于传统的聚类方法。然后,把学习的词簇用作文本特征,构建一个基于词簇文本特征的分类系统。实验结果表明,基于词簇文本特征表示具有明显的降维效果,和基于词特征的特征选取方法相比,降维幅度大约为100位。 ●提出一种基于Ontology的领域知识库构建方法。首先,给出两个基本概念定义:领域关联词和领域特征属性。接着,采用框架表示法来表示领域知识。最后,详细描述了东北大学自然语言处理实验室领域知识库的构建方法,并给出一个实际构建“军事”领域知识库的例子。 ●提出把领域知识库用于文本特征表示的两种方法。第一种表示:用领域知识库中的领域关联词作为文本特征;第二种表示:用领域知识库中的领域特征属性作为文本特征。实验结果表明,用领域关联词作为文本特征,有助于增强文本特征的表达能力。 ●提出一个自划分学习模型,以解决领域知识库覆盖度不足的问题。该模型结合Bootsrapping学习框架和globalCM模型,按照领域知识库的结构,自动把候选词划分到相关领域中。文中把学习结果用于文本特征表示。实验结果表明,这种学习模型可以进一步提高领域知识库在文本分类中的作用。 ●提出一个领域知识库的半自动构建模型。采用上述的自划分学习模型,学习出新的领域关联词,构成一个候选集,提供给领域知识专家作为选择对象。然后,专家从中选取合适的领域关联词添加到领域知识库中。这样可以大大减少人工劳动量,提高工作效率。
其他文献
目前,随着宽带网络的日益普及,网络视频会议以及多媒体远程教育等组播应用也随之在网络中流行。另一方面,三层交换机由于其对IP数据报的高速转发能力,也越来越多地参与到网络
网络机器人技术是当前机器人研究领域的热点研究课题,其核心思想是将传统机器人的传感、处理、执行各个模块分布到网络上,成为网络中的节点,这些节点通过网络进行通信,协同完成工
随着我国医疗体制改革的不断推进和完善,医药行业作为一个特殊的经济领域,它与电子商务的结合有其特定的涵义。电子商务作为电子技术、网络技术、数据处理技术在药品流通领域的
自主移动机器人的导航,是机器人能够通过传感器感知环境和自身状态,实现在有障碍物的环境中面向目标的自主运动,从而完成一定作业功能。自主机器人的导航问题主要包括地图创建和
Petri网是有着深刻的学术内涵,又有着广阔的应用背景的计算机科学的一个分支。它的主要特征包括:并发、不确定性、异步描述和分析能力。Petri网以其简洁、直观、潜在模拟能力强
XML技术自产生以来,在网络数据存储与交换中发挥的作用越来越大,其安全性也受到广泛的关注。特别是随着Web服务技术的发展,XML作为Web服务间数据交换的工具,其安全性成为Web
随着企业信息化的发展,对计算机和信息系统的依赖越来越强。企业扩大,业务增多,应用系统越来越多。员工在使用这些系统过程中,必然要经过无数次的登录与认证,大大降低了工作效率。
集成了传感器技术、微电子技术、无线通信技术的无线传感器网络,能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到管理这些信息的用户.无线传
随着信息化程度的不断提高,越来越多的企业引进计算机系统作为企业管理的重要工具。中大型企业中,各种各样的服务器上运行着各种不同的软件系统,这些信息化系统为用户提供了高效
随着计算机网络技术的迅速普及,电子商务得到了飞速发展。对安全、高效、可分的公平离线电子现金系统的研究不仅具有重要的科研学术价值,而且对国家电子商务、金融机构的信息化