基于潜在语义的多类文本分类模型研究

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:caful
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型.因此,提出一种基于潜在语义的多类分类模型.该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来.其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类.在Reuters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定.
其他文献
从语言本体论的角度,通过对语言思想性功能的论述,分析20世纪翻译文学本质的“二层次”理论并对中西语言在翻译过程中的“通译”观点提出质疑.并以此理论建构为基础,对新时期
Due to the advanced diagnostic technique and better understanding for multiple primary lung cancers (MPLC), the increasing incidence of MPLC has been reported.
所谓的架空历史小说,是近年来网络上兴起的一种对既定历史发展轨迹和发展结果不满而对历史进行虚拟改变新型历史小说.小说主角往往由于奇特际遇而“穿越”到过去的某一历史时
随着现代的不断发展进步,女性已经摆脱了旧社会时期的那种附属、卑微的社会地位,越来越多的女性要求男女平等,并且争取自己在精神上、事业上都有自己的一片天地.这一进步的现
中国的思想体系无外乎儒、道、释三家.释就是释迦牟尼创造的佛教.释迦牟尼不是中国人,但是他首创的佛教却深深影响了中国思想文化.本文并不是从宏观上阐明佛教对中国的影响或
刘震云早期创作的“单位系列”小说和“官场系列”小说从总体上看都包含了集体形式的存在.以集体中的利益网络为媒介,可以还原出作家对大众集体想象的消解.在此基础上,借以窥
在老舍的作品中,经常看到异国形象,并且是以一种多元化的模式出现的.回看以往,可以让研究人员重新打量这个世界,进一步将作者的水平超越并形成创新的视角,事实上证明他者态度
语境即言语环境,它包括语言因素,也包括非语言因素.文学作品中的语境制约着言语代码的选用,也伴随着读者读解鉴赏的全过程.我们称语境间的不平衡为语境差,即各语境因素问表现
本文按照小说类型学理论,分析了网络“穿越”类型小说的起源;对其定义进行界定,并进行了简单的分类;同时寻找并归纳其叙事语法,分析了叙事语法在文学和文化上的意义.
作为先锋作家的余华,其作品的创作风格有着鲜明的转变.以1989年为界,其前期作品体现为他的现代性思考,从思想上对中国传统文化进行深刻反思.其后期创作则由现代性的先锋姿态