模糊理论在文本分类中的应用研究

被引量 : 0次 | 上传用户:yysky99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是将文字组织的电子文档按不同的语义概念归入一个或多个不同语义范畴的过程。由于万维网的普及与互联网技术的迅猛发展,数量剧增的电子文本数据变得越来越难以管理,文本分类的重要性便受到了有效的重视。为了减小信息量爆炸所带来的负面影响,对具有高精度性能的文本自动分类方法的需求是必然的。作为文本挖掘、信息检索以及网页搜索等领域的关键技术,文本自动分类也因此在相关应用中扮演着极其重要的角色。目前主流的基于机器学习的文本分类方法主要结合统计理论分类,利用表示文本特征的统计特性作为度量手段,其关键过程包括文本预处理、特征削减、权重计算、分类方法学习和分类结果及性能评估。通过分析发现,自然语言天然的模糊性使得特征之间的联系很难清晰地定义,同时也很难由统计工具明确地表示,由此引入模糊理论,以模糊的概念来表示特征的语义及文本的类别属性,待分类文本不再是绝对地属于或不属于某个类别,而是由对各类的隶属程度判断最可能属于哪一类,从而引出了模糊文本分类的概念。本文提出了基于模糊关系的文本分类方法,用模糊关系来表示语义单元的类别属性更符合自然语言特征,以达到更高的分类精度。该方法分别定义了特征用于表示文本和类别的隶属函数,将测试文本和类别表示为特征的模糊集,并以模糊相关系数来度量文本与类别的模糊关系,得到文本的类别模糊集,并按最大隶属原则决定测试文本所属类别。实际情况下,一篇文章可能同时属于多个类别或者文本类别不清晰,多标签文本分类问题正是关注于文本可能属于多于一个以上类别的情形。基于以上模糊关系的计算,本文提出了改进的多标签文本分类方法,使用多类别向量表示类别之间的关联信息,重新计算引入类别关系之后文本与各类的模糊相关度,并且采用启发式搜索的思想为每个类别设定相关度阈值,当测试文本与某类别的相关性计分大于所求出的阈值时,则应为文本标记该类标签。在中文文本分类系统平台上,本文首先将基于模糊关系的文本分类方法与k-NN算法进行了多组实验对比,并采用多种指标对性能进行评估,实验结果表明该方法有较好的分类精度,且分类速度有较大提高;最后在相同的系统环境下,通过实验验证了基于模糊关系的多标签文本分类方法可以获取正确的类别,表明该方法是有效且高效的。
其他文献
【目的】分离、鉴定橘叶中黄酮类成分,并以所得到的黄酮类成分为对照品建立其薄层色谱鉴别方法,为橘叶的质量控制提供科学依据。【方法】以硅胶柱层析法分离橘叶黄酮类成分,
高性能压电陶瓷具有战略的至关重要性和实际的不可替代性;高性能无铅压电陶瓷具有重大社会经济意义,已成为国际高技术新材料研究的前沿和热点之一。本文作者及其课题组,十多
<正> 弗洛伊德主义是当代西方社会思潮中有着广泛影响的重要流派之一,它是以创始人弗洛伊德而得名。弗洛伊德是上世纪末本世纪初奥地利著名的神经病学家和心理学家。他创立了
海运业是具有战略性的重要产业,我国海运服务市场具有较高的开放程度,本文在开放市场条件下,从宏观产业环境、产业生存力、产业发展力、产业竞争力和产业控制力五个层面建立
针对人工湿地处理技术及其工程的应用,文中系统论述我国在人工湿地研究方面的最新进展及亟待解决的关键技术问题。通过分析人工湿地的特点及研究现状,重点探讨我国北方寒冷地
土地利用∕土地覆盖变化(LUCC)即是全球变化的重要原因,也是全球变化的结果。土地利用∕土地覆盖变化研究已经成为全球变化研究的重要组成部分。当前,对于土地利用∕土地覆盖
<正> 美国是个“由移民组成的国家”。它的历史进程受到连续不断的移民浪潮极大的影响。这个移民浪潮从十七世纪初期开始,时起时伏,一直持续到现在的整个历史时期。没有任何
<正> 系统论是在现代自然科学发展的基础上产生的新型的综合性的基础理论。它的基本观点,是把研究的对象作为一个系统。系统的整体性、目的性,最优化是这个理论的核心。这也
采用垂直Bridgman方法生长的CdZnTe晶体,定向切割成12 mm×7 mm×2.5 mm单晶片。通过研磨、抛光、腐蚀、电极制备、钝化、退火等一系列工艺,制成了Au/CdZnTe/Al平面探测器。
海洋蕴含着极为丰富的资源,海洋平台作为海洋资源开发的基础性设施,是海上生产作业和活动的基地,因此海洋平台健康状况检测是海洋平台安全与防护的重要一环,及时发现海洋平台