【摘 要】
:
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个富有挑战性的课题,是新一代计算机的三大突破口之一,正受到世界各国
论文部分内容阅读
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个富有挑战性的课题,是新一代计算机的三大突破口之一,正受到世界各国广泛的重视,而文本理解属于自然语言理解的应用范畴。 当前,无论是商业企业、科研机构或者政府部门都需要处理大量的信息。如何在这浩如烟海而又纷繁芜杂的文本中最大程度地解决信息杂乱现象,方便用户定位信息、分流信息始终是信息处理的一大目标。本课题以公安执法领域中描述案情的中文文本为研究对象,探讨采用自然语言理解中文本分类的方法,实现根据文本的内容自动判别文本类别。 本文中描述了文本分类的基本原理,详细阐述了文本分类过程中各个阶段的主要算法和技术,并对此作了一些比较。文中着重介绍了文本特征提取的改进算法,并引入了信息提取中的常用技术——潜在语义分析,实现文本向量空间的降维,提高分类性能,并初步构建了一个法律文本自动分类系统。
其他文献
最近几年,越来越多的用户考虑建设虚拟化管理中心。究其原因,主要有三点:硬件成本降低、空间更节省、能耗更环保。这样不仅可以帮助用户把应用从物理服务器迁移到虚拟机(VM)上
由于网络规模的不断扩大,网络管理研究成为IT业界的热门研究方向之一。随着用户对网络服务质量提出了更高的要求,大型的IP网络服务商急需高性能的、可靠的网络管理系统对网络
随着多媒体技术和计算机网络技术的发展,数字产品的版权保护问题显得尤为重要,如何确保数字产品的安全已经成为国内外研究的热点。数字水印技术作为一种新的版权保护方法,从2
去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了一种根据词频统计的抽取特征词和特征句,并根据特征句来判别重复
随着GIS广泛地应用于各行各业,产生了大量的异质空间数据和异构的GIS应用系统。如何统一和共享这些空间信息资源和实现GIS应用系统之间的互操作,是一个很关键的问题。建立可
论文以MC环境下订单实时监测与辅助决策软件开发为研究对象,在客户订单的基础上提出了定制产品大批量决策模型架构,设计了一种大批量定制产品订单监控引擎,实现了对定制产品
本文提出了植入式故障注入这个概念,并对植入式故障的引入技术作了系统化的研究.在文中,首先讨论了数字系统中的故障类型和发生机理.接着研究了各种硬件故障注入技术,基于对
随着计算机网络技术的迅速发展,针对主机以及网络的入侵行为日益猖獗。计算机和网络系统的安全问题越来越突出,各种安全手段的研究也就越来越重要,相应的,处于重要地位的入侵检测
三维地震数据场的传统解释方法是用剖面及水平切片显示二维图像,具有很大的局限性,很早以前人们就指出三维数据三维解释的方向。科学计算可视化是实现三维数据三维解释的主要
高速发展的DSP技术为语音信号处理提供强有力的工具,使得实时实现各种各样的复杂算法成为可能。针对不同的应用,国际标准组织制定了一系列的语音压缩编码标准。其中,G.729A是