基于语义相似度的中文文本分类系统的研究与实现

来源 :大连海事大学 | 被引量 : 10次 | 上传用户：fastal

【摘要】

：

文本分类是通过分析待分类的对象,提取待分类对象的特征,比较待分类对象和系统预先定义好的对象的特征,将待分类对象划归为最相近的一类,并赋予相应的分类号。文本分类是文本

【作者】

：

张真

【出处】

：

大连海事大学

【发表日期】

：

2007年01期

【关键词】

：

文本分类支持向量机特征选择知网同义词林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是通过分析待分类的对象,提取待分类对象的特征,比较待分类对象和系统预先定义好的对象的特征,将待分类对象划归为最相近的一类,并赋予相应的分类号。文本分类是文本挖掘技术的基础和核心,是近年来数据挖掘领域的一个研究热点。特征提取和文本表示是文本分类当中的关键技术。在传统的文本分类系统.中,假设文本中的词条之间是线性无关了,文本的向量空间中的特征维度间是正交关系,但实际上在文本的上下文当中,词条之间存在着各种关系,如同义、近义、关联等。利用这些关系和词语之间的相似程度,我们将关键词映射到概念空间,用概念作为特征来表示文档进行分类。这样许多相似度非常高的词语被转换成一个概念,而一个多义词在不同的语境下也会被映射到不同的概念,提高了特征词的凝聚度,克服了传统分类系统中基于关键词的分类方法缺陷,解决了维度灾难,提高了分类准确率。本文在设计特征提取模块的过程中,采用数据库作为耦合中介,松解特征模块中各个部分的紧耦合度,建立特征提取模块的模型框架。基于这种模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条各种统计运算,而且可以灵活地变更模块中的不同算法,比较其性能,达到研究平台的要求。本文借助“知网”、“同义词林”词典,构建语义处理模块,将特征词由关键词空间映射到概念空间,实现了基于概念相似度的文本分类系统。在对语义概念处理模块建模的过程中,根据两部词典的词条特点,利用了多字Hash表词典索引机制对两部词典进行系统构建,优化物理存储空间,提高系统语义处理速度。在对语义处理后的训练语料进行分类操作时,本文利用支持向量机算法SVM对系统的性能进行研究。在训练过程中,采用计算机、艺术、教育、交通、环境医药、军事、政治、体育、经济、环境等10个类别的近2000篇文本对象进行试验,并选有1000个文本进行测试,从而体现了较好的系统优势和性能。

其他文献

英语世界庄学研究回顾与反思

本文回顾了英语世界庄学研究的总体情况。认为至 1 980年前后 ,英语世界庄学研究才真正走向成熟。近百年来的英语世界庄学研究给我们留下了很多宝贵的财富 ,出现了象华生、梅

期刊

英语世界庄学研究研究方法译本

岭南印象园里岭南风

<正>浓缩着岭南地区传统建筑风格、民风乡情的岭南印象园,用她独有的视觉和趣味地玩乐,为岭南人重现了本土的民俗文化和市井百态。让我们重温渐已淡忘的岭南风情……

期刊

岭南印象园练溪村岭南地区

论文体互动及其文学史意义

中国古代文学的文体系统是一个天然形成的有机体。这个系统自成一体而相对完满自足。系统内的每一种文体都具有独特的表现功能,这种功能的独特性是该文体产生的前提和存在的

期刊

文体系统文体互动文学史

药用丁基胶塞与头孢曲松钠的相容性研究

包装材料对保证药品的稳定性起着至关重要的作用，与人们的用药安全直接相关。药品包装材料选用不当会导致药物活性成分的迁移、吸附甚至发生化学反应，使药物失效，有的还会产生严

学位

胶塞头孢曲松钠澄清度气质联用

分子标记在林业辅助选择育种中的应用

本文主要阐述分子标记在林木辅助选择育种中的应用。利用多种分子标记（ＲＡＰＤ，ＲＦＬＰ，ＡＦＬＰ，ＳＴＳ，ＳＳＲ，ＳＴＲ等），可以在林木早期生长阶段对一些性状进行鉴别，构建单种分子标记遗传连锁图谱或几种分子标记共存的混合连

期刊

分子标记数量性状位点基因连锁图谱

面向公共安全的电信数据仓库及数据挖掘技术研究与实现

本文针对公共安全的需要，对电信数据仓库和数据挖掘技术进行研究。重点应用聚类分析和神经网络算法，通过对异常点的查找，从电信数据中挖掘出特殊用户群。首先，进行数据仓库体系架

学位

公共安全电信数据仓库数据挖掘神经网络

农村老年人生命质量与社会环境因素的相关研究

目的:评价农村不同居住类型老年人群生命质量,分析影响农村老年人生命质量的社会环境因素。方法:采用定性调查与文献研究相结合,编制《老年人生命质量调查表》(Quality of Li

学位

生命质量老年人农村

欧盟法对足球运动员转会制度的影响

欧洲足球的职业化水平在世界居于领先地位,各项制度相对完善,转会制度也不例外。所以研究欧洲足球转会制度对于我国转会制度的改革有一定的参考价值。欧洲最早的转会制度产生

学位

转会转会制度转会费欧盟法

法务调查会计的对象：会计证据研究

伴随经济犯罪案件以及民事经济纠纷案件的日益增多,财务会计资料的证明作用愈加受到人们的重视,然而当事人或司法机关由于专业知识作限,往往不能对涉案的会计事项进行准确判

学位

会计证据法务会计电子会计证据专家证人鉴定人

CdZnTe单晶表面、界面及位错的研究

CdZnTe晶体是迄今制造室温X射线及γ射线探测器以及HgCdTe等红外薄膜外延衬底最为理想的半导体材料。尽管对CdZnTe的研究由来已久，但在CdZnTe晶体的表面处理、金属与CdZnTe晶

学位

CdZnTe表面漏电流红外透过率表面弛豫表面重构表面电子结构功函数界面反应肖特基势垒欧姆接触位错

基于语义相似度的中文文本分类系统的研究与实现

与本文相关的学术论文