基于改进CHI特征选择的情感文本分类研究

来源 :传感器与微系统 | 被引量 : 0次 | 上传用户:ssm3695
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高情感文本分类的准确率,对英文情感文本不同的预处理方式进行了研究,同时提出了一种改进的卡方统计量(CHI)特征提取算法。卡方统计量是一种有效的特征选择方法,但分析发现存在负相关现象和倾向于选择低频特征词的问题。为了克服不足之处,在考虑到词频、集中度和分散度等因素的基础上,考虑文本的长短不均衡和特征词分布,对词频进行归一化,提出了一种改进的卡方统计量特征提取算法。利用经典朴素贝叶斯和支持向量机分类算法在均衡语料、非均衡语料和混合长短文本语料上实验,实验结果表明:新的方法提高了情感文本分类的准确率。
其他文献
针对国际大学生程序设计竞赛所涉及知识与"算法与数据结构"课程密切相关的特点,将程序设计竞赛与"算法与数据结构"课程实践教学改革相结合,并在多年的课程教学中加以实践,取得显
人民日报社掀起了工作大跃进的热潮.二月二十七日下午,人民日报举行大跃进和苦战三年的动员大会.社长邓拓同志号召大家消除“六气”——官气、暮气、傲气、娇气、阔气和书生
<正> 辅酶Q_(10)又名为癸烯醌(Ubiquinone),在呼吸链中起传递氢体作用,对许多酶均有激活作用.辅酶Q_(10)(下称CO-Q_(10))在人体内的总含量为0.5~1.5mg,在心脏、肝及胰中的水平
目的:检测肉制品中的磷酸盐.方法:采用碱性淋洗液作为透析液,透析24h,溶出肉制品中的磷酸盐,并用离子色谱法测定其含量.结果:该方法的平均回收率为90.3%,相对标准偏差在3%~5%
华南地区辣椒避雨栽培可减轻病虫害发生,辣椒品质好,产量高,经济效益显著。该文从避雨设施、品种选择、播种育苗、定植、田间管理、采收等方面介绍了华南地区辣椒的避雨种植
0概况400 t双悬臂造船门式起重机(以下简称门机)于2003年正式投入使用至今,效果很好。该门机的跨度为70.5 m,除横跨船台外,其主梁跨度外左右的悬臂长度分别为24 m,起重小车能够
痤疮俗称青春痘,是一种因皮脂腺分泌过盛,毛细孔受到厌氧的痤疮棒状杆菌和凝固酶阴性的白色葡萄球菌感染的常见性损容性疾病。好发部位以颜面为主,其次在上胸、肩胛间、背部等皮
对青海省贵南县欧拉型藏羊羔羊在牧草枯黄期进行了补饲育肥效果试验。结果表明,牧草枯黄期羔羊放牧加补饲精料颗粒料,自由采食,短期育肥60 d,11月龄平均体重和日增重分别达到
藏系绵羊是我国古老的粗毛羊种之一,主要分布在海波2500-3500m的青藏高原,经过长期的自然选择和当地藏族人民的辛勤选育,形成了草地型和山谷型两个类型,山谷型藏羊主要分布在农区
本文从晚清时期济南的历史背景入手,着重分析研究了从晚清到近代济南城市空间功能的变化和结构转型,即由单中心向"老城区+商埠区"双核结构转变及其带来的城市发展,同时探讨了