短文本分类中特征选择算法的研究

被引量 : 0次 | 上传用户:abcz123789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。面对大规模的短文本形式的数据,如何快速而准确地从中获取所需的关键信息,进行文本挖掘或商业挖掘,短文本分类技术发挥着非常重要的作用,并且在用户兴趣挖掘、热点话题追踪、流行语分析、舆情预警等领域都有着广泛的应用前景。短文本分类包含文本的预处理、特征表示、特征选择、特征权重计算、构建分类器等步骤,特征选择是其中非常重要的一个环节。在短文本中,由于其长度较短,包含的有效信息较少,导致特征集维数非常高,准确而高效的降维就显得至关重要。特征选择是从原始特征集中挑选出对分类贡献最大的一组特征。一个高效的特征选择算法不仅能降低特征维数,还能提高文本分类的效果。因此,如何设计出一个高效的特征选择算法非常重要。本文针对上述问题主要做了如下工作:首先简要介绍了短文本分类的研究背景和意义,总结分析了短文本分类已有的研究成果,并重点介绍了短文本分类中特征选择算法已有的研究成果及研究热点,对文本分类所涉及到的理论基础和相关技术也进行了简要的阐述。特征选择算法的研究主要涉及两方面,即评价函数的设计和搜索策略的确定,针对特征选择算法如何设计评价函数的问题,本文考虑到样本特征的模糊性,将模糊熵应用到特征选择中,采用模糊熵来度量各特征的分类权重,并根据短文本分类的特点,采用类内类间分散度来设计模糊熵的隶属度函数,提出了一种基于模糊熵的短文本特征选择算法。仿真实验表明了该算法的有效性。针对常用特征选择算法存在特征子集大小阀值k难以确定的问题,取不同的k值获得的分类效果将会相差很大。本文结合粒子群优化算法概念简单,易于实现,具有很强的全局搜索能力的优点,提出了一种基于粒子群的短文本特征选择算法。首先采用模糊熵对原始文本集进行特征预选,然后对预选的特征集采用改进的粒子群优化算法进行第二次特征选择。为了克服粒子群的早熟收敛,利用云模型的优越性动态确定惯性权重;为了使粒子群具有更好的搜索效率,根据特征模糊熵的大小初始化粒子种群以及采用迭代变化阀值控制算法结束的条件。仿真实验表明了该算法的有效性。
其他文献
人类生存的合理性问题和艺术与人类存在的关系问题是本杰明始终关注的两个问题。本杰明的韵论就是在他用艺术人类学的方法对人类艺术形式问题进行研究的过程中形成的。本杰明
高校构建社会主义和谐校园既是构建社会主义和谐社会这一我党治国核心理念在高校的贯彻、实施,也是高校改革发展进入关键时期的迫切要求。和谐校园建设是一项复杂的系统工程和
文章对首钢长钢8号高炉采用打水空料线停炉法,对无冷区进行喷补造衬,以及复风过程进行了总结,其整个过程安全、顺利、快速、经济。通过喷补造衬,高炉上部近似于合理操作炉型,
目的:研究腓肠神经营养血管逆行岛状皮瓣修复肢体远端(足踝部)皮肤软组织缺损的临床应用。方法:利用腓肠神经营养血管逆行岛状皮瓣修复肢体远端(足踝部)皮肤软组织缺损13例,其中外伤
出于文学情结和政治需要,曾国藩利用桐城派这面旗帜招揽天下英才,为其政治利益服务,表现出对桐城文人特别关爱和培养,赢得桐城文人对他的信任。与此同时,桐城文人要实现自己
铁线莲是一种优良的藤本花卉,园林应用潜力较大。对5种铁线莲种子的外观形态进行了观察,测量了种子的千粒重、相对含水量和吸水率,并就光照和温度对铁线莲种子萌发的影响进行
空间稳定性是指大脑实现空间和感觉运动信息之间稳定性的能力。与单通道相比,视觉和触觉的整合有助于提高任务绩效。在空间稳定性知觉过程中,当运动是由主体发起时,大脑在发
利用地震、测井及录井资料,恢复古近系沙河街组三段沉积时期莱州湾凹陷构造-古地貌特征,分析构造-古地貌对沉积体系的控制作用。沙三段沉积时期,莱州湾凹陷可划分为8个构造-
道德对于人类社会具有永恒的意义,任何社会都需要一片道德晴空。教师是人类社会古老而又崇高的职业之一,具有重要的社会价值。教师的职业道德是教师职业社会价值得以体现的根本
在作文教学中,教师要关注社会、时代以及学生个性的发展,正视各种社会思潮对学生的影响,实现教育观念的转变,正确疏导学生写作中的非良性心态,关注社会,关注学生的人格,正视