中文文本层次分类方法研究及应用

来源 :扬州大学 | 被引量 : 0次 | 上传用户:cot01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络的迅猛发展,人们要接受的信息数量也成几何级数的增长。面对Internet中海量的、纷繁芜杂的信息,如文本信息、声音信息、视频信息等等,如何快速有效的获取信息知识,并且能按照某种特定的结构模型进行有序化的整理,这无疑是一个很重要的课题。信息处理技术的目的就是从杂乱的信息中发掘最有效的信息,经过十几年的长足发展,信息处理技术已取得了较大的进步。文本分类技术的任务就是基于文本内容,从给定的类别集中找出一个或多个相似的文本类别,指定于待分类文本,目前常用的方法是基于机器学习和概率统计的文本分类方法。在现实的分类体系中,类别具有多层次的组织结构模式,而传统的文本分类思想恰恰忽略了对层次的考虑。概念层次树的构建,为用户提供了可视化浏览及搜索的操作功能,同时体现了文本库中文本间的语义联系。层次分类的核心思想是“分块而治”,分类过程从根节点开始,将待分类文本与各级节点进行比较,划分到最相似的一个或几个分类树节点下,最终当到达叶子节点时分类过程结束。文本分类技术经历了从基于规则到基于统计,再到如今规则与统计相结合的研究发展过程。其中向量空间模型是较为常用的数学模型,该模型将词条表示为特征向量,由特征向量表征文档,但该模型只关注了词形结构,忽略了词义联系。本文利用潜在语义索引和隐马尔可夫模型等方法,充分利用了文本中隐含语义信息,并依此实现文本层次分类,本文主要研究内容包含以下几个方面:(1)介绍了层次文本分类技术的基本方法和关键技术,并参考分析了国内外相关工作的研究进展,指出在文本层次分类应用中的不足,目前常用的分类法缺少对文本语义信息的考虑,并且分类性能受噪声影响较大,今后的研究应该更注重文本的语义联系。(2)提出了基于潜在语义的文本层次分类法。在以层次结构表示的文本类别中,每一个类别就是一个主题。在文本分类过程中,包含主题类别的词条比其它词条更为重要。本文就提出使用Gibbs抽样的方法,来抽取一系列的概率主题类别标签,文本就由这些概率主题来表示,然后将主题类别标签运用于潜在语义分类模型的构建。本文提出的基于潜在语义索引的模型,探索了主题标签在层次文本分类中的作用。实验结果表明,该方法有效的提高了分类精度。(3)提出了基于改进隐马尔可夫的文本分类过程。在层次文本分类中,主题类别是按照预定的层次关系进行划分的。通过主题类别的划分就是要将分类任务细化为小的子问题,然后对每个主题类别构建一个分类器,最后通过这些子分类器将待分类文本分到层次结构中相应的类别。在树形结构中,待分类文档只与某主题类别节点下的文档比较,只是在同一层次同一节点下的比较。本文按照层次分类的思想提出基于隐马可夫模型的子分类器构建,并且详细介绍了文本分类的过程。(4)本文结合网络犯罪案件信息分析的运用背景,将层次文本分类的思想运用于网络犯罪案件信息分析系统的构建,提出了原型系统的构建模型。同时,本文为以语义网为基础的案件侦查本体构建提出了统一的标准知识表示结构框架,明确后续本体构建的基本规则。
其他文献
如今,O2O电子商务模式已经成为人们消费的主战场,线上线下协同销售已经成为社会主流的商品销售方式之一。本文研究的是近几年新兴的外卖O2O平台模式。自2009年第一批外卖公司成立,也不过是六七年。自2013年、2016年外卖平台经历了两轮爆发式增长,现已成为人们生活中不可或缺的部分。外卖O2O平台想要获得增长,精确的利益分配方案无疑最重要研究方向之一。本文以外卖O2O电子商务模式为研究背景,以外卖O
在现代社会,作为企业生命的质量已经成为赢得市场和获取利润的手段,统计过程控制正是产生于这种背景下。作为监控生产过程的手段,质量诊断已成为当前的研究热点之一。在众多监测过程有效性的工具中,控制图最为经典、有效。实践早期,由于技术手段的限制人们只能对少数几个显著影响产品质量的质量特性进行监控。由于该时期理论上假设各个变量是相互独立的,因此可以每个变量分别采用的传统控制图,此时的质量诊断方法并不能从真正
在我的记忆中 ,自习惯定期翻阅体育类期刊至今 ,还几乎没有看到将体育科学研究方法作为刊栏的杂志。此次天津体育学院学报开辟专栏 ,并由二位著名学者首开议题 ,应该称之为是
随着计算机和通信技术的快速发展,人们已经生活在一个服务丰富的普适的数字化环境中。普适计算的思想认为计算机应嵌入到环境中去并与环境相融合,人在使用计算机时并不确知计
迄今为止,大学排名已经成为全球性现象。与此同时,关于大学排名的研究成果也相当丰富,但仍然有许多相关技术和理论问题值得探索和完善,许多关键问题有待深入研究。本研究对世界各
多品种、小批量的混流生产线具有复杂性、动态性、适应性等特点,使得对其进行产能的评估十分困难。而现实中,确定企业的产能是否能够满足市场的需求、应有的产能与实际的产能是
以地区分类研究和项目分区研究两种方法,对我国省区市优秀运动队训练与竞赛活动的投入和运动成绩产出进行经济效益分析,发现我国奥运争光举国体制下存在着不容忽视的两个“1/
在全国涌现的改革潮流中,不少报纸从改革新闻入手,开始了报纸工作的改革。为什么新闻的改革成了报纸改革中突出的一环呢?这是由于新闻是报纸最根本最主要的宣传形式,报纸所
本研究对籼型水稻50个亲本的数量性状,应用多元分析法,测定遗传距离,作为预测F_1杂种优势的参数。并据此进行聚类分析,为水稻杂交育种的亲本选择及选配强优组合提供依据。供