基于特征提取和主题模型的文本分类研究

被引量 : 0次 | 上传用户:VIPYJS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化的迅速发展和互联网的普及,这种新的信息传播途径改变了人们的生活方式,但是互联网中的数据作为信息载体也呈现了爆炸式增长。对这些数据进行有效的组织和挖掘,以期望更加迅速、精确和全面找到用户所需要的信息是当今信息科学领域面临的一大挑战。为了应对这种挑战可以对这些数据进行挖掘,文本挖掘主要有文本分类、文本聚类、文档摘要等方法,由于文本分类是人们获取知识和认识事物的一种非常重要方法,并且其在自然语言处理、自然语言理解、机器学习和主题识别等领域都起着关键作用,所以基于文本内容的自动分类研究己成为备受关注的研究热点之一。文本分类是这样一个过程,为需要分类的文档集归到确定一个类别并且这些类别都是预先定义的。文本分类一般包括了文本的预处理、特征提取、分类器的选择、训练集训练、测试集测试、分类结果的评价等步骤。在这些步骤中,由于特征提取的好坏对分类结果影响比较大,对其研究就成为文本分类中当前的一个热点。特征提取是通过对原始特征进行降维,以达到去除特征集中对文本分类无意义的特征,进而提高分类效果的最终目的。传统的文本特征提取方法都是基于数理统计的,忽略了文本中词项之间的语义关系。本文试图通过引入语义信息与传统的特征提取方法结合,达到数理统计信息和语义信息全部融入分类算法的目的,以提高文本分类的效果。本文对文本分类相关技术、主题模型进行了介绍,并进行了以下研究工作:(1)分析了传统的CHI和MI特征提取方法的不足之处,针对问题提出一种基于两种方法的特征提取方法FSCM。FSCM通过对CHI和MI特征提取方法的不足之处进行相应的参数修改,然后对两种方法结果进行融合来实现。(2)通过分析传统引入语义信息方法的不足,利用了在LSI、pLSI模型上扩展出来的LDA模型来解决,这种方法可以在不引入外部知识库的情况下挖掘出文本隐藏的语义知识。基于这个特性,提出一种结合CHI和LDA模型的方法并应用于相应的分类算法进行文本分类。
其他文献
在影视艺术创作的实践中,在拍摄演员表演的同时进行录音被称之为“同期录音”。同期录音由于能够最大程度地捕捉到演员现场丰富和真挚的语言情绪,使得我国当下的影视艺术创作
民事再审事由是完善民事再审程序的关键和核心,随着民事诉讼法的修改,其再审事由范围也越来越大,对此,我国最新司法解释对民事再审事由的内容进行了进一步细化,以此来全面提
癌症(cancer)泛指所有的恶性肿瘤,按起源组织不同可分为两大类:凡从上皮组织如皮肤、粘膜生长出来的恶性肿瘤叫癌(carcinoma),凡从间叶组织如肌肉、淋巴、脂肪、骨骼、血管等
<正>在全球三大航空联盟中,寰宇一家是唯一在中国内地没有联盟成员的一家,国航是星空联盟成员,南航、东航加入了天合联盟,但寰宇一家在中国仍然有不容小觑的市场份额,这些就
为了进一步提高轮转印刷机的工作速度和稳定性,缩短轮转印刷机研发周期,必须打破传统的机械设计思路,用仿真技术去优化设计机械产品。本文在分析输料系统的机械结构、运动规律及
胡风事件为20世纪中期以后主流意识形态的整合提供了标准的运动范式,并在其后数十年间的流变中作为元典与之同构;而对于胡风全面平反的一再推延及淡化处理,则呈现出事件消解
论文在文本细读的基础上,力图还原和展示80年代城市化进程中单位人的复杂心路历程。在单位机制、市场逻辑、家庭规约的博弈过程中,以市场逻辑为主导的都市意识逐渐置换了小林
目的探讨盆底肌功能锻练辅助仿生物理治疗产后压力性尿失禁的效果。方法将136例产后1~2 a的门诊压力性尿失禁病人,随机分为观察组(71例)和对照组(65例)。观察组进行盆底肌功能
都市水墨人物画是现代水墨画的一个分支,它与传统水墨画有很大区别,在现代水墨画中占据较大比例,有很高的研究价值。随着社会经济的快速发展,都市越来越多的画家开始运用都市
本文在分析灵感和服装设计灵感思维的基础上,结合现实社会中服装设计的考量要素,讨论了服装设计中灵感来源的途径,旨在通过灵感思维激发、丰富和深化服装设计产品,寻求服装设