基于背景学习的迭代式文本分类框架

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:weihc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络文本数据呈指数级增长,信息的人工分类和管理逐渐被计算机自动分类所替代,相关领域经过多年的研究和发展已经开发出一些相对成熟的算法。研究分析发现:在文本预处理阶段歧义语段的划分始终是影响分类准确率的一个重要因素,至今仍未完全解决。结合互信息度理论,提出一种基于背景学习的迭代式框架,在此基础上通过对分词数据预处理来改进传统的基于朴素贝叶斯模型的文本分类算法,并使用新浪网不同类别数据对提出的迭代式框架进行实验评估,实验结果表明提出的基于背景学习的迭代式文本分类框架可行有效。
其他文献
<正>火电、钢铁、水泥等行业实施脱硝是为了减少氮氧化物等污染物的排放,避免形成臭氧、PM2.5和光化学烟雾等二次污染。废弃的脱硝催化剂属于危险废物,每年处理费用至少需1 0
目的:探究心率和心率变异性与心力衰竭及预后的相关性。方法:选择2016年10月—2017年10月于我院就诊的90例心力衰竭患者为观察组,与此同时另选30名健康人员为对照组,对两组人
通过分析数据库安全审计机制,提出一种基于旁路监听的数据库安全审计系统框架,并实现了针对Oracle数据库的安全审计系统。涉及Java网络抓包、TNS协议解析、SQL语法解析和数据库
针对证据分步合成问题,给出了多证据分步合成结果的一般表达式,对分步合成方法理论上的合理性以及合成结果的收敛性进行了研究。针对高度冲突证据的分步合成问题,提出一种将D
目前,随着新农村绿化工作在青海省的全面展开,经济发展与绿化建设也逐步提升,但由于青海省地处高海拔地区,地理位置特殊,自然条件恶劣,冬季寒冷、日照时间短,新农村绿化树种
基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语
<正> 通过加强输血工作领导,强化血液质量管理,建设采供血机构,整顿输血队伍,合理开发和利用血液资源,有效地保证了临床用血和生产用血的质量和安全,为我区输血事业的发展开
合理优化乡村聚落空间格局对区域生态环境保护具有重要意义。该文以山丘生态保护区山东省泗水县为例,运用最近邻点统计、空间关联测度模型、空间韵律测度等方法分析泗水县乡
目的研究间歇低氧对大鼠下丘脑-垂体-性腺轴(HPG)功能和超微结构的影响及还原型谷胱甘肽(GSH)的保护作用,探讨睡眠呼吸暂停低通气综合征所致男性性功能障碍的发病机制。方法将24只
最高人民检察院提出:“要建立健全执法办案风险评估预警机制,把风险评估作为办理案件的重要环节,科学制定预案,妥善采取应对措施,防止因执法不当引发涉检信访。”在中央要求