跨语言文本分类技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhengzhidelang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会正处于信息时代,网络上信息量爆炸式增长,其传播速度之快、发展规模之大,达到了空前的水平。更广泛、更迅速、更精准的获取信息,意味着可以掌握先机,从而获取更全面的知识、得到更具有价值的情报、获得更大的经济效益。文本分类是处理文本信息的主要方法之一,可以将信息和知识进行分门别类的组织和管理,从而帮助人们更快更精确地获取信息。但是,在处理大数据规模和多语言语境的文本时,现有的文本分类方法表现出处理效率低下、处理效果较差等一系列问题,已经远远不能满足人们的需求,跨语言的文本分类技术就应运而生。它作为组织和管理多语言文本的有效手段,可以克服不同语言之间的阻碍,使得用户可以更加有效的组织和定位所需要的信息。本文研究跨语言文本分类技术的方法,并针对跨语言文本分类中面临的多语言平行语料匮乏,不同语言文本之间的语言阻隔、主题漂变,以及分类效果较差、效率较低等问题,提出了相应的解决方法。第一,通过机器翻译的方式构建多语言平行语料库,做为实验的数据集。第二,语言阻隔和主题漂变是由于不同语言之间存在着词义、语法以及文化背景的差异,导致不同语言难以相互沟通理解,以及翻译过程中出现文章的主题发生迁移。针对这两个问题,本文引入Word2Vec训练词向量工具参与文本表示,充分考虑语义信息和上下文语境信息,将不同语言的词投影到相同的向量空间之中,成功跨越不同语言之间的壁垒,很好的解决了语言阻隔问题和主题漂变问题。第三,本文提出了两种面向跨语言文本分类问题的新方法,有效的提高了分类的效果和效率。第四,本文构建了跨语言文本分类系统,将两种方法应用到了基于中英法三语平行语料库的跨语言文本分类中去,得到了良好的效果和效率提升。
其他文献
庐镇乡在1983年、1984年分别两次实施了DDT室内滞留喷洒消灭嗜人按蚊,防治恶性疟的综合性防治措施,1985年以来纵向监测结果显示,未发现嗜人按蚊及恶性疟病例,1997年在监测过程中再度发现嗜人按蚊,现将
探讨手术室与供应室一体化运作中,针对出现的问题。加强科时间的沟通、规范制度和提高业务水平,不但减少手术室的环境污染,而且提高器械使用效能,同时发挥消毒灭菌设备的最佳
问答系统源于人们对快速、准确获取信息的需求,是信息检索系统的高级形式,其核心是计算问题和答案的语义相关性。传统的计算语义相关性方法大多基于特征工程,借助句法解析器
目的研究奥扎格雷钠注射液的制备工艺。方法对溶剂的选择、活性炭吸附、pH值范围等条件进行筛选,并考察制剂稳定性。结果与结论所确立的奥扎格雷钠注射液制备工艺合理可行。
课堂中的教学评价是课堂教学成果的一种体现,也是教师专业水平与教学能力的最直观的体现,美术课堂教学评价尤为如此。因此,教师应该对教学评价足够重视才能真正地发挥出教育的功能。本论文基于高凌飚等专家学者对过程性评价的解释,探讨了过程性评价运用的教学意义,开发了过程性评价的方式,将美术学科核心素养落实到了过程性评价中,并将此方式运用到了教学实践中。在评价主体上,构建了学生、教师及家长等的评价共同体,这样能
针对医学院校图书馆外文期刊采购工作中存在的问题和不足。笔者结合实际,提出了相应的改进措施,以便高效率、高质量的完成外文期刊采购工作。
为探讨不同类型地膜覆盖对烤烟生长发育、烟叶产量和品质,以及植烟土壤耕作层土壤保温保水性的作用效果,以现有生产上普遍采用的普通农膜和防除田埂杂草使用的田埂膜为对照,
【摘 要】在新课程的改革下,对小学语文教师提出了更高的要求,教师在语文教学中要结合实际,摒弃传统落后的教学观念,创新课堂教学。教师有条件地开展趣味教堂,激发学生的学习兴趣,给学生充分展现自己的舞台,使学生在轻松的学生氛围下提高学习成绩。  【关键词】小学语文 兴趣 创新改革 写作  【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(2016)32-0261-01  随着
随着人们对空气品质要求的日益严格,溶液除湿空调系统因具有空气清洁度高、温湿度独立控制等优势受到人们的青睐,然而再生能耗高却在一定程度上限制了溶液除湿空调的推广。若
目的探讨合并糖尿病拟行全髋关节置换术的老年患者的护理,通过全面细致的护理,提高手术成功率,减少术后并发症,使患者尽早恢复健康。方法对我院2010年1月-2011年12月收治的32例拟