多语言文本聚类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yuji712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的进一步发展和普及,以及全球化趋势的进一步深化,互联网上各语种的信息资源呈现出爆炸式的增长。信息时代,信息意味着机会,意味着成败。人们迫切希望从巨量的网络资源中迅速、准确的获取自己感兴趣和有价值的信息。多语言文本聚类技术依托于传统的聚类技术,同时适应了多语言的信息环境,能够较好的满足人们跨语言环境的信息需求。本文首先系统的研究了国内外多语言文本聚类的研究现状,之后,在文本聚类技术的框架内,系统介绍了文本聚类技术的一般过程及各阶段所涉及的关键技术,具体介绍了文本特征表示与相似度计算,特征降维的方法,文本聚类算法以及聚类效果的评价方法等;然后,详细阐述了多语言环境下文本聚类技术的核心内容——多语言文本表示技术,具体介绍了映射到单语言表示空间以及映射到多语言表示空间两种思路。多语言文本的表示基于两种思想,一是通过翻译等方式将多语言文本转换为单语言文,然后在单语言环境下实现聚类;二是通过语义分析技术,发现多语言文本之间的语义关联,在保留多语言的环境下实现文本聚类。语义分析技术中,详细介绍了实验中需要用到的隐含语义标引(LSI)的方法,详细介绍了它的数学基础和基本原理。本文实验部分选取了2736篇中英双语对照新闻语料,选取文本聚类技术中最基本的K-Means聚类算法,基于上述两种思想分别进行了实验,其中,实验一基于在线翻译系统将特征提取后的多语言文本转换为单语言文本,实现了多语言文本的聚类;实验二基于隐含语义标引的方法,通过语义标引发现多语言文本之间的语义关联,构建起混合语言的表示空间,实验了多语言文本的聚类。实验结果表明,在较稳定的翻译系统的支持下,基于翻译转换的思想能够明显提升多语言文本的聚类效果,在翻译系统性能进一步提升的情况下,该方法具有很好的应用前景;基于隐含语义标引的方法由于受到机器性能、聚类工具等的影响,无法系统的完成实验,在本论文完成的实验部分,实验结果显示该方法并没有很明显的提升多语言文本聚类的效果。
其他文献
在很多人眼里,黑客被看作是“电脑捣乱分子”,等同于“计算机罪犯”。据统计,当今世界每20秒至少就有一起黑客事件发生,黑客活动意味着滥用计算机资源和使用计算机进行诈骗,是地道
我国印章发展历史非常悠久,印章不但是身份的象征,而且承载着历史与文化,印章的发展同时也记录了文字的发展。虽然印章不是一个普遍的文字载体,但是它却也为我们留下了诸多的文字
近几年,随着社会主义民主与法制进程的稳步推进,我国的传媒事业也如雨后春笋迅猛地发展起来,新闻舆论的社会影响力也在日渐提升,但随之而来的是新闻传媒与社会大众的冲突日益增多
金融市场作为重要的经济发展领域,对于经济的发展起着不容忽视的巨大作用,投资人作为金融市场的主要参与主体,其与经纪商的不平衡地位导致了对于金融产品认知的偏缺,以致在进行投
2008年北京市朝阳区人民法院审理了王菲诉大旗网、天涯网、北飞的候鸟三家网站一案1,并作出了一审判决,至此我国“人肉搜索第一案”落下了帷幕,本案中原告王菲诉称三家网站都刊
随着信息技术的迅速发展,计算机网络技术愈来愈广泛地应用于社会各个领域,传统产业尤其是农业和种植业的信息化改造与提升成为大势所趋。为了增强对新品种的保护、鼓励植物高
由于历史原因,我国形成了长期存在的城乡二元结构体制,后来的二元户籍制度限制了农村人口向城市流动,所以农村人口较少接触到城市的生活方式。再加上农村改革开放的步伐没有城市
近年来,国内债券市场蓬勃发展,以企业债、中期票据为主的信用产品发展速度惊人。因此,研究债券收益率或者说债券价格的影响因素成为机构投资者购买合适债券的重中之重。投资
故意杀人罪是我国刑法中性质最严重的少数罪名之一,位居侵犯公民人身权利、民主权利罪一章的首位,也是司法实践中适用死刑的主要罪名之一,其在刑法分则体系中的重要地位不言而喻
随着化石能源的枯竭以及日益严重的环境污染问题,寻找一种可持续发展的清洁能源迫在眉睫。太阳能作为取之不尽用之不竭的绿色可再生能源,是未来人类社会能源消耗的重要来源之