基于语义相似度的中文文本分类系统的研究与实现

来源 :大连海事大学 | 被引量 : 10次 | 上传用户:fastal
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是通过分析待分类的对象,提取待分类对象的特征,比较待分类对象和系统预先定义好的对象的特征,将待分类对象划归为最相近的一类,并赋予相应的分类号。文本分类是文本挖掘技术的基础和核心,是近年来数据挖掘领域的一个研究热点。特征提取和文本表示是文本分类当中的关键技术。在传统的文本分类系统.中,假设文本中的词条之间是线性无关了,文本的向量空间中的特征维度间是正交关系,但实际上在文本的上下文当中,词条之间存在着各种关系,如同义、近义、关联等。利用这些关系和词语之间的相似程度,我们将关键词映射到概念空间,用概念作为特征来表示文档进行分类。这样许多相似度非常高的词语被转换成一个概念,而一个多义词在不同的语境下也会被映射到不同的概念,提高了特征词的凝聚度,克服了传统分类系统中基于关键词的分类方法缺陷,解决了维度灾难,提高了分类准确率。本文在设计特征提取模块的过程中,采用数据库作为耦合中介,松解特征模块中各个部分的紧耦合度,建立特征提取模块的模型框架。基于这种模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条各种统计运算,而且可以灵活地变更模块中的不同算法,比较其性能,达到研究平台的要求。本文借助“知网”、“同义词林”词典,构建语义处理模块,将特征词由关键词空间映射到概念空间,实现了基于概念相似度的文本分类系统。在对语义概念处理模块建模的过程中,根据两部词典的词条特点,利用了多字Hash表词典索引机制对两部词典进行系统构建,优化物理存储空间,提高系统语义处理速度。在对语义处理后的训练语料进行分类操作时,本文利用支持向量机算法SVM对系统的性能进行研究。在训练过程中,采用计算机、艺术、教育、交通、环境医药、军事、政治、体育、经济、环境等10个类别的近2000篇文本对象进行试验,并选有1000个文本进行测试,从而体现了较好的系统优势和性能。
其他文献
本文回顾了英语世界庄学研究的总体情况。认为至 1 980年前后 ,英语世界庄学研究才真正走向成熟。近百年来的英语世界庄学研究给我们留下了很多宝贵的财富 ,出现了象华生、梅
<正>浓缩着岭南地区传统建筑风格、民风乡情的岭南印象园,用她独有的视觉和趣味地玩乐,为岭南人重现了本土的民俗文化和市井百态。让我们重温渐已淡忘的岭南风情……
中国古代文学的文体系统是一个天然形成的有机体。这个系统自成一体而相对完满自足。系统内的每一种文体都具有独特的表现功能,这种功能的独特性是该文体产生的前提和存在的
包装材料对保证药品的稳定性起着至关重要的作用,与人们的用药安全直接相关。药品包装材料选用不当会导致药物活性成分的迁移、吸附甚至发生化学反应,使药物失效,有的还会产生严
本文主要阐述分子标记在林木辅助选择育种中的应用。利用多种分子标记(RAPD,RFLP,AFLP,STS,SSR,STR等),可以在林木早期生长阶段对一些性状进行鉴别,构建单种分子标记遗传连锁图谱或几种分子标记共存的混合连
本文针对公共安全的需要,对电信数据仓库和数据挖掘技术进行研究。重点应用聚类分析和神经网络算法,通过对异常点的查找,从电信数据中挖掘出特殊用户群。首先,进行数据仓库体系架
目的:评价农村不同居住类型老年人群生命质量,分析影响农村老年人生命质量的社会环境因素。方法:采用定性调查与文献研究相结合,编制《老年人生命质量调查表》(Quality of Li
欧洲足球的职业化水平在世界居于领先地位,各项制度相对完善,转会制度也不例外。所以研究欧洲足球转会制度对于我国转会制度的改革有一定的参考价值。欧洲最早的转会制度产生
伴随经济犯罪案件以及民事经济纠纷案件的日益增多,财务会计资料的证明作用愈加受到人们的重视,然而当事人或司法机关由于专业知识作限,往往不能对涉案的会计事项进行准确判
CdZnTe晶体是迄今制造室温X射线及γ射线探测器以及HgCdTe等红外薄膜外延衬底最为理想的半导体材料。尽管对CdZnTe的研究由来已久,但在CdZnTe晶体的表面处理、金属与CdZnTe晶