基于TextTiling的中文文本分割技术

来源 :东北大学 | 被引量 : 0次 | 上传用户:keyina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着统计自然语言处理技术的快速发展,文本分割日益成为一个重要的研究方向,并在多个应用领域发挥愈来愈大的作用。TextTiling算法作为一种以词汇链为基础的文本分割方法以其较好的性能一直被广大研究者用做算法研究和比较的对象。本文以该算法为基础,实现对中文文档进行文本分割。 本论文讨论了文本分割领域中文档结构,文档粒度,子话题等基本的概念和理论,并依据这些理论介绍了最大熵方法、基于词链方法、检查话题边界的方法等文本分割的方法。本文介绍了中文语料库的构建过程,对文本分割进行评价的准确率和召回率方法、F-measure方法、Pμ评价方法等。其中重点介绍了Pμ评价方法对文本分割的评价策略,“正错误”,“负错误”的概念,以及该方法的优缺点。 本文详细介绍了TextTiling算法基于词汇链的理论基础,并分析了该算法的三个主要步骤:对文本进行单位长度划分(Tokenization)、相似度计算、分割点选择。之后对算法中的主要参数作了相关实验,并分析了算法的分割性能与文档划分单位、深度值、平滑计算的关系。本文使用准确率和召回率方法,Pμ评价方法对中文文档的文本分割结果进行评价,研究评价结果与分割点数目,分割点分布之间的关系。
其他文献
随着国内高校研究生招生规模的不断扩大和教育体制的不断改革,高校研究生教务管理工作量大幅度增加,其复杂性也越来越大,开发高效的基于Web的研究生教务管理信息系统成为紧迫的
软件界的多年研究表明,软件组织只有对软件过程进行有效管理、将过程规范化并进行度量和不断改进才能在预算的时间和成本下生产高质量的软件产品。我国软件产业的主体部分是中
车辆识别需要最大限度地利用车辆的信息去辨认道路上的车辆,这就需要多种车辆识别技术。作为汽车的象征性图像,车标中蕴含着很难被改变的厂商信息,车标识别在提高识别车辆的
计算机博弈是人工智能领域中的一个重要主题,而当前对中国象棋博弈的研究也在不断地发展着,该文通过对象棋程序"纵马奔流"(取得了第8届Computer Olympiad象棋软件金牌)的数据
随着计算机的应用以及互联网的迅速发展,电子文档的应用变得越来越广泛。电子文档具有易编辑易传播的优点,极大方便了人们的日常生活。但是,电子文档的非法篡改和传播会严重
3GPPR5中提出IMS通过基于IP的网络来控制语音、多媒体的呼叫和会话以及与其他网络的互联,从而支持多媒体业务。其概念最早在移动网中提出。IMS的核心特点是采用SIP协议和与接
认知Ad Hoc网络是认知无线电技术与Ad Hoc网络融合而成一种分布式认知无线网络。与传统的无线Ad Hoc网络相比,主用户活动的影响使得认知Ad Hoc网络的环境更加复杂,信道资源和
分布式计算技术是近20年来影响计算机技术发展的最活跃因素之一,随着该技术的发展,分布式计算的应用也渐渐成为一种趋势。服务发现是其中的一个关键部分。设计的主要目的是为
RFID技术,是从20世纪90年代以来高速发展的一项自动识别技术,具有优良的特性和广阔的市场前景。RFID中间件是联结RFID硬件设备和后台应用系统的纽带。随着RFID技术的高速发展,RF
随着计算机网络的发展,越来越多地需要使用分布式计算技术来共享资源、平衡计算负载以及合理安排程序的位置。分布式对象技术是将分布式计算技术和面向对象思想结合起来的一种