基于统计词典和特征加强的多语言文本分类

来源 :西南师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:btxzero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计双语词典的基础上,提出一种特征加强的多语言文本分类方法.在执行文本分类时,考虑到其他语言的训练文本,使得多种语言的文本集合中均存在训练文本,放松了MLTC的要求.特征加强是一种交叉检查过程,即获取两种语言所有特征的卡方统计后,通过语言中相关特征的辨识力,再次对语言的特征辨识力进行评估,以提高分类的可信度.实验选择汉语或英语作为目标语言.实验结果表明:提出的方法具有更高的分类精度,且对训练集规格的敏感度更低.
其他文献
本文研究了大豆根瘸菌PRC005的接菌量对大豆生长的影响。田间试验结果表明:接菌量在播种后40天和60天没有显著增加根瘤数、根瘤干重、地上部植株干重和植株含氮量。施氮肥处
文章通过分析"营改增"对建筑业税负的影响及"营改增"后建筑业面临的涉税难题,提出纳税筹划的一些建议,以减轻企业的税收负担。
<正>党的十八届三中全会提出"构建公共文化服务体系,建立这一体系的建设协调机制是当前重要任务"。《国家"十一五"时期文化发展规划纲要》提出完善公共文化服务体系,"十三五"
<正>疾病谱是了解一个地区的疾病发生状况、分布和变化的基础统计工作。自2009年9月以来,白银市开展了疾病谱统计报告工作,通过分析全市疾病谱,可以在一定程度上了解和掌握疾
伴随着互联网的普及和发展,互联网给受众呈现的健康信息达到了前所未有的量级,这对人们获取和使用健康信息的态度、方式都产生了巨大的影响。如今,互联网已经成为公众获取健
本文对生物入侵的概念、发生过程、危害和防治做了概述。
中共十七届六中全会提出,"全面建成惠及十几亿人口的更高水平的小康社会,既要让人民过上殷实富足的物质生活,又要让人民享有健康丰富的文化生活"。而公共文化服务体系在保障
随着科技水平的不断提高和高精密仪器设备的不断投入使用,对科学实验环境的温湿度控制精度提出了更高的要求。然而在现有设计规范中,对恒温恒湿实验室的空调设计描述并不够详
目前国内对城市公园规划设计的阶段划分尚未形成明确的共识,影响了规划设计工作的质量和效率,通过编制广州市《城市公园规划与设计规范》,提出设置4个基本的规划设计阶段,即:
学龄前儿童已经能区分真实与虚构实体且对真实/虚构实体的恐惧很普遍,能较好地理解他人恐惧反应的原因。应对真实与虚构实体恐惧的策略有现实肯定和积极假装。在应对恐惧策略