中文文本自动分类系统的研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zt20032053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的第一章介绍了自动文本分类技术的产生背景及其意义,介绍了自动文本分类的问题描述、评价方法以及技术的种类,并在最后部分介绍了国外该技术的研究现状。第二章介绍了中文文本自动分类的技术基础。第三章介绍了文本分类的关键技术,对文本分类中的文本的表示、特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。第四章是本论文的重点,在本章中,集中介绍了本人所作的工作。首先对于分词歧义处理的情况进行了分析,并提出了基于上下文的双向扫描分词算法。然后,对于目前通用的tfc加权法的不足之处进行了分析,并引进χ2统计量参与项的权值的计算。除此之外,在文本分类过程中,目前传统的做法是所有类别都具有同一个特征项集,但这样做使得有些类别的特征概括不全或者所选出的特征并不具备区分类别的能力。为此,本文提出了这样一种思想,即对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不尽相同。并在随后将项的类内文档频率的概念引入项的权重计算当中,进一步提高了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。最后在第五章,通过实验证明了改进后的权重计算方法的优越性,同时也证明了项打分分类算法的可行性。
其他文献
在矿山开采、重型冶金、油气钻探等重工业领域,能够承受剧烈冲击及抗腐蚀、抗磨损成为机械零部件的基本要求,在耐磨部件表面熔敷具有高硬度、高耐磨损性能的涂层成为这些领域修
随着2004年奥运会,我国首次获得女子网球双打冠军,开创了中国网球在国际大赛获得冠军的新纪元。越来越多的人加入到网球运动中来,尤以高校网球发展最为迅速,网球专业学生和网
为了在井下钻具连续旋转过程中实时准确测量出重力工具面,介绍了石油钻探中描述井眼姿态的轨迹基本参数以及如何实现测量姿态参数的传感器基本原理,着重介绍了井眼姿态测量常
地域特征,是风景园林规划设计中的一个永恒的课题。作为规划与设计的“原点”,其对规划与设计的后续工作具有举足轻重的意义。回顾历史,优秀园林规划与设计作品都是在尊重地域基
随着社会主义市场经济体制的逐步建立,当前中国医疗服务市场无论其规模、性质、范围和影响都发生了巨大变化,与之相适应的医疗卫生监督的体制也同样经历着变化。医疗卫生监督
H型钢以其优良的断面特性而广泛应用于国民经济建设的各个领域。随着H型钢在我国的应用和生产的发展,用户对产品规格的需求越来越多,对产品形状和尺寸精度要求日益严格。而且
近断层强地震动研究是近十多年来地震学和地震工程学中非常活跃的领域。上世纪末发生的许多破坏性大地震在近断层区域造成了严重破坏,同时也表现了一定的近断层强地震动特征,这
随着我国经济的快速发展,对于高速公路建设的投资力度也在逐年加大。高速公路的建设使我国公路交通出现了交通量大、行车速度快的特点,随之带来的行车安全问题逐渐引起人们的
幼儿玩具影响着孩子肢体和智能的发展。一款新型益智玩具"乐多"翻折圈,设计师将符号学、产品语义学理念融入其中,能让孩子在娱乐中顺其自然地锻炼肢体、开发智力、发展认知,