基于线性分析的日语文本分类模型构建研究

来源 :外语电化教学 | 被引量 : 0次 | 上传用户:KOUHUIKING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以涵盖日常会话、会议发言、小说、议论文、政府白皮书以及新闻报道等多个类型的训练组文本为对象,统计其名词比、数词比、接续词句比等22项数据,将其作为文本表示方式进行线性分析,从中选取14项具有显著判别能力的指标,确定了其权重,由此构建基于Bayes分类函数的文本分类模型。观察这14项典型指标可知,除词汇占比类数据外,句长等指标也能够成为文本分类的有效依据。经测试,在绝大多数情况下,该模型的分类准确率都高于85%,召回率都高于81%,实现了以较小的运算量达到较高分类精度的目标。
其他文献
为提高园林绿化苗木成活率,我们采取乔木实数统计,灌木分段取点抽样、实地调查和内业汇总整理的方式,对2018年城区园林绿化苗木成活率进行了调查统计,查找问题,分析原因,总结
目的:探析穴位按摩结合情志护理在脑卒中患者中应用效果。方法:以2016-05-2017-01在我院接受护理的60例脑卒中患者的护理效果进行回顾分析。使用随机数表法进行患者的抽取,其中
目的:研究分析股骨粗隆间骨折PFNA术后螺旋刀片穿出股骨头的影响因素,并探究相关的预防措施。方法:回顾性分析179例股骨粗隆间骨折患者于2015年9月至2018年3月在南昌大学第二
海德格尔批判扬弃了现代技术是作为工具性和人类学规定的“流行观点”,他运用现象学的方法,深入到技术的本质层面,认为现代技术是世界的构造,即展现。海德格尔在追问技术问题时提
本文主要通过对陕西省高校档案数字化建设现状的调查,阐述了高校档案数字化建设的必要性,分析了陕西省高校档案数字化建设的现状和对策,希望为高校档案数字化建设的发展提供
校办综合汽车修理厂面对国家不再强制机动车二级维护保养、三类汽车维修企业数量剧增 等严峻形势的挑战,为了能有更好的发展,在积极改革、积极创新的新思路下,笔者学院综合汽
一、应用价值 1.果色特点 观果植物夏季、秋季五彩斑斓,可以打破园景寂寞单调之感,与观花植物具有同等的美化作用. (1)黄色.银杏、梅、柚、甜橙、香圆、佛手、枸桔、梨、木瓜、
美国人提出健康饮食新观念为了制订与美国人群健康密切相关的科学饮食,营养专家广泛调查了68个国家健康与饮食10种疾病中6种有重要联系,这6种疾病是:冠心病、癌症、中风、动脉硬化、糖
《图兰朵》是意大利著名作曲家贾科莫·普契尼根据童话剧改编的三幕歌剧。09年鸟巢版大型景观歌剧《图兰朵》向世人展示了中国歌剧的进一步发展和艺术文化的进步,使中国在艺
内皮祖细胞(EPCs)是血管内皮细胞前体细胞,病理情况下,EPCs增殖分化能力减低、向损伤部位定向迁移能力及黏附功能减弱,使血管内皮损伤修复受阻或损伤加重,成为缺血性心脏病的重要致