【摘 要】
:
随着当前信息技术的发展以及Internet的普及,人们对诸如自动文摘这样的文本处理需求与日俱增。中文自动文摘研究起步较晚,加上中文自身的特点导致中文自动文摘技术成熟还尚需
论文部分内容阅读
随着当前信息技术的发展以及Internet的普及,人们对诸如自动文摘这样的文本处理需求与日俱增。中文自动文摘研究起步较晚,加上中文自身的特点导致中文自动文摘技术成熟还尚需时日。本文首先总结、分析了自动文摘的国内外研究现状,在此基础上,提出了一种基于概念格理论实现中文自动文摘的方法,建立了自动文摘系统框架CBCL-TAS,重点阐述了基于文本实时分割的无词典抓词算法、中文特征提取方法及文本概念格建立算法,并在实验基础上对基于该方法构造的自动文摘系统进行了评价。本文提出的自动文摘方法利用综合文本背景建立与全文对应的概念“骨架”,将对自然语言的理解转换为对文本形式背景的理解,避免了复杂的语法语义、语句相似度计算、语句联系度计算等处理。对较大规模的文本进行抓词首先需要对文本进行分割,本文提出的抓词算法动态调整文本分割段的大小,与传统的固定分割式算法相比,对于50万字以上的较大文本具有更高的处理效率。实验结果表明,CBCL-TAS系统生成的中文文摘质量良好,尤其对于议论型体裁的文本,准确率较高。由于采用了实时分割式的抓词处理,避免了系统受到文本规模变化的影响,整体处理速度保持在较高水平。
其他文献
在基于包机制的网络上传输信息时,数据被封装成一个一个的包,从源主机通过网络传输到目的主机。当网络发生拥挤堵塞或者是服务器的缓冲区发生溢出时,就会导致数据包的延迟或
随着网络技术和多媒体技术的迅速发展,图像数据的安全有效传输越来越受到人们关注,数字图像压缩和加密技术应运而生。本文主要对基于小波变换的图像压缩编码算法和以混沌理论为
随着计算机技术和数据库技术的快速发展,人们采集数据的能力有了很大的提高,并积累了大量的数据。通常仅仅对这些数据做简单的查询、编辑工作,然而这些数据中隐含了大量对人
在模式识别领域,有很多问题需要获取大量的有标记数据以训练出高精度的分类器,但有标记数据的获取却是非常困难的,甚至要消耗大量的人力物力。随着数据收集和存储技术的飞速发展
近年来我国铁路事业飞速发展,行车密度与速度大幅增加,由此带来的对铁路行驶安全性与可靠性的要求也越来越高。但是,当下的线路状态检测还严重依赖于巡道工人的目测检查,这样
因特网技术的发展使得网格作为一种分布式的计算平台诞生了,它主要提供资源的共享和协同工作,这些资源包括计算资源,存储资源,信息资源,硬件资源,软件资源等等,它把网络上的
云模型是李德毅院士提出的云理论的一个核心组成部分。它是在对概率理论和模糊集合理论进行交叉渗透的基础上,通过特定的构造算子,形成定性概念与其定量表示之间的转换模型。
近几年来,随着软件产业的迅速发展,软件发展的规模越来越大,软件购买、交付及运营的费用越来越高,同时企业信息化建设需求不断增强,逐渐需要采用一种更好的软件交付模式来减
I/O调度算法对磁盘性能有着至关重要的影响。传统的磁盘调度算法主要通过优化寻道时间来提高磁盘的I/O带宽利用率,但没有考虑到单个请求的响应时间,不能满足实时性要求,也无法感
自1999年各个高校开始进行高校招生扩招以来,现有的大学校区已经不能满足日益增长的学生的数量。于是,许多学校开始扩充自己的校区,将校区的规模扩大了,许多大学选择了在郊外建立