文本处理技术及应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:chen_gm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本摘要、分类、聚类和检索是文本处理领域中的重要技术。本文结合若干具体科研项目,在上述几个方面进行了研究和探索。在文本摘要技术方面,本文实现了一个简单的文本摘要工具,分析了相应算法和实验结果,并对存在的问题进行了讨论。在文本分类技术方面,本文实现了一个基于多词频关联规则的文本分类器,并对实现方案提出了改进,对原方案和改进方案进行了实验比对和实验分析。该分类器使用的关联规则考虑了文本数据中关键字重复出现的事实,并对训练阶段产生的关联规则进行修剪,采用树形结构来组织关联规则,分类的质量和速度均较好。在文本聚类技术方面,本文设计了一个针对BBS语料的聚类算法,用来对BBS上讨论的热点话题进行识别和跟踪。BBS语料极其不规范并且数据量巨大,故要求算法具有良好的健壮性和良好的时间效率。实验结果表明基于该算法的系统符合上述要求。在文本检索技术方面,本文将检索技术应用于生物信息学的序列比对领域。生物序列可以看成全文的一种,本文将全文检索的互关联后继树模型结合生物序列的精确局部比对算法OASIS,发展出OASISirst算法,在保持搜索结果精度和排序的前提下,加快了搜索速度,并且减小了膨胀比,提高了实用性。本文实现了OASIS和OASISirst算法,对两者的性能进行了比较,开发出一个基于OASISirst算法的实用工具,并配有界面演示。
其他文献
越来越多的多媒体应用追求渲染效果的真实感,使用者对画面效果的要求也越来越高,真实世界的光照信息被用于虚拟场景渲染,来达到提高结果质量的目的。由于高精度的HDR环境光图
随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Internet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越
可扩展标记语言(Extensible Markup Language)在基于Web的分布式应用系统中日益获得青睐,同时也对访问控制提出了新的挑战。在大型的企业级应用中,访问企业XML关键资源的用户
人们对问题求解规划器的研究已经持续了半个世纪之久,在众多规划器中备受瞩目的是Avrim Blum和Merrick Furst于1995年提出的经典图规划。图规划首次将规划图应用于规划器设计
随着网络的广泛应用,特别是政府信息、电子商务信息和军事数据在网络上的传输给网络安全提出了很高的要求。网络攻击方法层出不穷,入侵手段也不断更新,使得防火墙等被动式网络安
计算机的安全已经是一个十分普遍和严重的问题,传统的计算机安全技术及人工响应已不能满足复杂系统的安全性要求,入侵检测系统已成为网络计算机系统中一个有效的防范检测手段,其
媒体服务器(MediaServer)是下一代网络(NGN,NextGenerationNetwork)中的重要设备,也是分组网络中的重要设备。媒体服务器在软交换设备或应用服务器的控制下提供基本和增强业务
主机涉密信息的安全是信息网络安全的重要内容之一。本文主要研究设计并实现了基于Java的主机涉密信息监测控制系统,目的在于探讨防止主机涉密信息失、泄密的方法,以减少或杜
随着现代企业信息化进程的不断深入,对企业应用系统也提出了更高的要求,希望应用系统在提高企业内部信息共享能力的同时,能够增强对企业多变的外部需求的适应能力。面向服务
90年代以来,随着信息存储技术和通讯技术的发展,大量的信息呈爆炸式增长,信息自动分类己经成为人们获取有用信息不可或缺的工具。文本分类是中文信息处理的一个重要的研究领域。