基于特征翻译和潜在语义标引的跨语言文本聚类实验分析

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:yndlyxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】通过多组实验来分析跨语言文本聚类中的基于特征翻译和潜在语义标引性能、注意事项和发展方向。【方法】从有关双语站点选取2 736篇中英文对齐的双语新闻语料,以基于特征翻译和潜在语义标引这两种方法分别进行文本聚类实验,并进行各自召回率、准确率、F值的对比。【结果】基于特征翻译的方法处理相对简单,能明显提升多语言文本的聚类效果;基于潜在语义标引的方法由于方法自身在时间和空间复杂度以及其他固有缺陷,最终结果差强人意。【局限】样本丰富度有待进一步扩展,期待在高性能计算环境下对LSI方法进行更全面的实验。【结论】基于特征翻译的方法需进一步提高翻译系统的性能,而LSI方法则需要解决计算复杂度、K值选取等问题。
其他文献
袁枚(1716—1797),18世纪清代非常有影响的文学家与美学家之一。他以特立独行的个性和不受羁绊、重视生活情趣而称誉当时。诗文创作方面,他提倡“性灵说”,认为“自三百篇至
鸡骨中含有丰富的营养物质,对鸡骨进行深加工,能有效提高蛋白质的综合利用率。利用复合风味蛋白酶(Flavourzyme)对鸡骨泥进行深度水解以制取动物蛋白水解液,结果表明:鸡骨泥
[目的 ]了解福建省近年首次检出沙门氏菌血清型 (变种 )型别分布情况。 [方法 ]对近 5年从人、动物、饲料及外环境检出的沙门氏菌进行血清分型 ,找出近年首次检出的血清型 (
<正>李有行是四川美术学院的创始人,新中国第一代工艺美术教育家。他以高尚的艺德和师德培养了万千学子,享誉美术界,以精湛的艺术造诣和色彩写生被尊称为"东方色彩大师"。他
<正>在设计领域中,设计师常常把民族审美情绪同现代设计的某些因素结合起来,形成独特的设计体系,这是艺术设计的一个发展趋向。作为传统的信息传播方式,平面设计必须找到"民
为了减少曲轴在工作时振动断裂,本文针对曲轴的振动特性进行研究。利用有限元软件对三种不同材料曲轴进行模态分析和谐响应分析,分析结果表明QT800为材料的曲轴在防振动方面
本文回顾了1949年以来以中国科学院、中国社科院历史所中国思想史研究室,浙江省社科院哲学所、国际阳明学研究中心,为实施主体与平台支撑的两大科研机构,在阳明后学文献资料
细根是树木根系的重要组成部分,具有重要的生理和生态作用。论文根据国内外近几十年来树木细根研究现状,对细根的几个主要研究领域即细根分解、细根寿命、细根周转和细根衰老
针对当前事业单位会计核算规范化问题,本文分析了会计制度不健全、会计人员素质参差不齐、内部控制制度薄弱、财政部门监管不力等成因,提出了规范事业单位会计核算的对策与措
我国大部分地区冬季气温下降,给猪尤其是仔猪的健康生长带来巨大挑战,许多猪场仔猪出现腹泻、呼吸道疾病、饲料报酬下降等问题,极大地影响了猪场的经营效益,笔者特总结冬季仔猪管