文本挖掘及其在多文化交流平台中的应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:Thomas1007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文化交流平台(Intercultural Collaboration Environment,ICE)是一项由亚洲多个国家共同参与的国际合作项目,其目标是利用机器翻译及其他相关技术,使得亚洲各国的用户可以通过互联网用自己的母语进行交流。目前,项目组从成立之初的ICE2002发展到现在的ICE2005,已吸引了亚洲多所大学与科研机构的合作参与,项目组已经开发出TransBBS、AnnoChat等在线交流工具,可以实现简单的在线多语交流,并先后在亚洲各国间进行了大规模的在线多语交流测试。然而,测试表明,使用AnnoChat互动交流过程中双方对翻译结果的可理解程度还有待提高。 为了改进翻译质量,提高用户对AnnoChat翻译结果的可理解程度,我们研究小组提出了一个基于本体的ICE系统框架,并实现了基于该系统框架的原型系统OBICES(Ontology-Based ICE System)。该系统集成了本体、智能Agent、文本挖掘三大模块,作为对AnnoChat的有益补充。本文工作主要集中在文本挖掘模块。 在OBICES系统中,文本挖掘模块主要完成两方面的工作:对在线聊天文本进行语义挖掘,协助Agent进行语义选择;对聊天事务数据库中历史文本进行语义和主题挖掘。这两方面挖掘得到的知识均放入聊天知识库,并进一步改进、修正和精化用于提供背景知识支撑的领域本体。 在进行文本挖掘过程中,根据在线聊天文本的特点,本文对文本特征选取算法TFIDF(Term Frequency Inverse Document Frequency)作了改进,提出了一种动态定义窗口大小进行文本挖掘的方法,并通过实验验证了该方法有利于提高文本挖掘的效果和质量。 论文最后通过对比使用OBICES系统前后,用户对AnnoChat翻译结果在关键词、语句、主题等方面的正确理解数据,验证了OBICES系统有利于提高用户对AnnoChat翻译结果的可理解程度。
其他文献
随着计算机网络和多媒体技术的飞速发展,现在有越来越多的数字产品通过因特网来传播。众所周知,它给人们的生活带来了许多的便利,然而与此同时,一个棘手的问题也随之出现。人
流媒体是在网络中使用流式传输技术的连续时基音视频信息。由于流媒体技术的广泛应用,流媒体中间件必将成为信息技术开发的新的热点。它为开发人员提供节点间的互联互操作,使得
近年来,微博社交网络站点的出现与发展对传统互联网服务造成了巨大的冲击,越来越多的用户通过微博进行情感交流和信息传递。与传统互联网交流平台相比,微博社会网络具有接入
运动对象检测是计算机视觉和运动图像编码研究领域的一个重要课题,在许多领域有着广泛的应用。特别是在安全监控应用中,运动对象检测是基于视频的安全监控异常报警任务的关键算
随着Internet的爆炸性增长以及其在我们生活中日益增长的重要作用,越来越多的网络上的服务器显得负担沉重,尤其一些提供WWW服务及FTP服务的知名网站,每天浏览网站的访客更是
防信息泄漏TEMPEST(Transient Electromagnetic Pulse Emanation Standard)的研究是信息安全领域中的一个重要研究方向。普通的计算机在加工和处理信息的同时,会将信息以电磁
范例推理是人工智能领域中较新崛起的一种重要的基于知识的问题求解和学习的方法,它是根据过去的成功或失败的事例来推导出新问题的解,它是一种知识库同推理机融为一体的新的推
随着微电子技术和通信技术的不断发展,无线传感器网络已经成为新兴的、多学科高度交叉的热点研究领域,在军事、环境、建筑、交通及工业等领域有着广阔的应用前景。然而由于无线
随着嵌入式应用领域日益扩展,在其中占有重要地位的系统虚拟技术也得到日新月益发展。PowerPC体系结构在嵌入式领域都有着卓越的表现和广泛的应用,但是不像基于X86体系的PC机
随着计算机进入多核时代,传统的依靠串行编程思维编写的桌面程序已不能满足多核的需要。传统的串行程序在多核平台上运行,不仅不能充分利用多核平台的优势,而且程序执行效率