一种基于改进卡方统计量的藏文文本表示方法

来源 :中国中文信息学会,上海交通大学 | 被引量 : 0次 | 上传用户:kiddlau2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的文本表示方法并没有考虑特征项之间的关联度,或者只是简单的计算相互问的共现,造成了语义的损失,很难准确的表示文档。本文首先提取文本中的高TFIDF值的部分词项作为对比词项,然后对藏文文本进行断句处理,以每个句子作为一个语境主题,以卡方统计量来计算文本中词项于对比词项的关联程度,结合信息检索领域的经典模型一向量空间模型,提出了一种新颖的文本表示方法Chi—T—VSM以解决藏文文本表示问题。实验结果表明,这种方法能够比传统的VSM方法更准确的表示藏文文本。
其他文献
汉字属於表意体系文字。所以,汉字是通过它的形体构造来表达意义的。这是汉字得以创造出来的基础,由此产生了造字原则的部首。与之相应,人们认识汉字也只有通过分析汉字的形体结构才能认识单个汉字的最初意义。所以,认识造字原则的部首相当重要。但是,在汉字查检方面,为了查检的方便人们又另外设置了一套部首体系,这套部首体系对汉字进行了重新归类和定位。当然,其中有相当一部分与造字部首是重合的。所以,在识字教学过程中
牛肩胛颈左右卜辞的契刻有先后顺序,即无论左右肩胛颈,靠近切去臼角有切口一边的刻辞在先。《甲骨文合集释文》基本上按照刻辞的干支所间距的天数来排序,有时也根据正反贞、刻辞是否完整清晰来排序,但是这些作法不能正确地反映刻辞本来的先后顺序。因此,本文全面检视了《甲骨文合集》1-6册的牛肩胛颈刻辞,按照“靠近切口一边的刻辞在先”这一规律,将《甲骨文合集释文》排序有误的重新进行了排序。
“臣”之构形取象于张目而视,这一意义,后来为“頤”“瞋”等字分化。由于监工者张目监督的特征,“臣”在其张目而视义的基础上产生抽象的监工义。“臣”最初来源于俘虏,地位十分卑贱,后來,部分“臣”地位逐渐提高。从甲骨文至周秦文献,“臣”的地位一直是高贵与卑贱并存。“臣”之词源意象和造字取象相重合,造字取象为词源意象的探求提供了重要线索。
对传统“六书”之“形声”造字条例,古今学者有着不同的解释。本文针对各家避言定义语词而空泛说解名称结构和定义所指之弊,紧扣语词,在细究疑难语词“事”、“名”、“譬”确义基础上,以探求条例固有意,为之提出一个全新解释,使得名称、定义、例字之解,互补互证,浑然一体。并进而论证了与“形声”异名同质的“象声”、“谐声”之称名理据。
本研究的目的是对口译第一阶段听焦虑模态(AAM)中AA 级度层面的认知心理管窥。本研究以Spielberger 的状态-特质焦虑理论为基础,以Cassady 和Johnson 的TA 模型理论为指导,以Chen 和Tang 的焦虑等级实验为依据,致力于对口译中AAM 研究。本研究区别于以往焦虑整体论的研究,其结论为:1) AA级度分为高焦虑(HA)、中等焦虑(MA)和低焦虑(LA);2) AA 级
军事科技翻译既是科技翻译的重要组成部分,也是军事翻译的一个分支,内容丰富,形式多样,专业性强、规范性高有些任务政治敏感性高、国际影响大。 本文结合军事科技领域口笔译工作的实践经验,分析了形势下军事科技翻译面临的 新问题与新挑战,从语言认知模式与翻译目的相结合的角度,探讨了本专业领域的翻译标准、翻译技巧和改进翻译工作组织模式的方法。
近年来,针对各行各业的公示语翻译,我国已逐步完善和制定了统一标准,并取得了 实效。然而,高校译名,作为城市公示语一部分,却被边缘化,其中工科类校名的英译,尤 其是后更名的“理工大学”译名,堪称“五花八门”。调查发现,在我国仅“理工大学”的 校名就有10种翻译方法。鉴于高校是我国对外交流的窗口,因此受影响的不仅是高校本身,更包括其所在的城市,甚至是整个国家的形象。本文通过对全国“理工大学”译名的查阅
翻译是一门科学,也是一种技巧、一种专业的交流工具。提出了航空科技翻译是一种专门的 技能,论述了培养航空科技翻译人才的五个途径,总结了培养航空科技翻译人才的方法,为企业的 科技翻译人才培养提供借鉴。
依据汉语词汇结构和意义表现出的同义互训认知规律,分析了英语词语同义互训的结 构本质,认为英语翻译时应该注意同义互训词语结构如连字符型、非连字符型、连接词型、 随机型和语篇衔接型等类别与一般语法并列词汇结构的辨析,提出对应合译方法,以厘清各 自语言词汇结构外形和意义蕴含,提升英语翻译质量。
短文本具有特征非常稀疏和上下文依赖性强的特点,这为短文本分类带来了困难.为了综合考虑这两个问题,在隐含狄列克雷分配模型的基础上提出了一种短文本分类新方法,不但将共有词通过主题来区分上下文,而且将可区分词通过主题关联来减少稀疏性.采用K近邻分类方法对自动抓取的网易页面标题数据进行分类,并与已有的两种方法进行对比,实验表明所提出的方法取得了相对更好的分类效果.
会议