基于TextTiling的中文文本分割技术

来源 :东北大学 | 被引量 : 0次 | 上传用户：keyina

【摘要】

：

随着统计自然语言处理技术的快速发展，文本分割日益成为一个重要的研究方向，并在多个应用领域发挥愈来愈大的作用。TextTiling算法作为一种以词汇链为基础的文本分割方法以其较

【作者】

：

高勇

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2006年期

【关键词】

：

文本分割词汇链自然语言处理统计自然语言处理技术中文档结构中文语料库中文信息处理中文文字处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着统计自然语言处理技术的快速发展，文本分割日益成为一个重要的研究方向，并在多个应用领域发挥愈来愈大的作用。TextTiling算法作为一种以词汇链为基础的文本分割方法以其较好的性能一直被广大研究者用做算法研究和比较的对象。本文以该算法为基础，实现对中文文档进行文本分割。本论文讨论了文本分割领域中文档结构，文档粒度，子话题等基本的概念和理论，并依据这些理论介绍了最大熵方法、基于词链方法、检查话题边界的方法等文本分割的方法。本文介绍了中文语料库的构建过程，对文本分割进行评价的准确率和召回率方法、F-measure方法、Pμ评价方法等。其中重点介绍了Pμ评价方法对文本分割的评价策略，“正错误”，“负错误”的概念，以及该方法的优缺点。本文详细介绍了TextTiling算法基于词汇链的理论基础，并分析了该算法的三个主要步骤：对文本进行单位长度划分(Tokenization)、相似度计算、分割点选择。之后对算法中的主要参数作了相关实验，并分析了算法的分割性能与文档划分单位、深度值、平滑计算的关系。本文使用准确率和召回率方法，Pμ评价方法对中文文档的文本分割结果进行评价，研究评价结果与分割点数目，分割点分布之间的关系。

其他文献

基于WEB的研究生教务管理系统研究开发

随着国内高校研究生招生规模的不断扩大和教育体制的不断改革，高校研究生教务管理工作量大幅度增加，其复杂性也越来越大，开发高效的基于Web的研究生教务管理信息系统成为紧迫的

学位

研究生教务管理UMLB/SJDBCJSP

基于CMMI的国内中小型软件企业软件过程改进研究

软件界的多年研究表明，软件组织只有对软件过程进行有效管理、将过程规范化并进行度量和不断改进才能在预算的时间和成本下生产高质量的软件产品。我国软件产业的主体部分是中

学位

软件过程软件过程改进中小型软件企业CMMI

基于改进SIFT算法的车标识别

车辆识别需要最大限度地利用车辆的信息去辨认道路上的车辆,这就需要多种车辆识别技术。作为汽车的象征性图像,车标中蕴含着很难被改变的厂商信息,车标识别在提高识别车辆的

学位

车标定位车标识别GS-SIFTBBF

电脑象棋的设计与实现

计算机博弈是人工智能领域中的一个重要主题,而当前对中国象棋博弈的研究也在不断地发展着,该文通过对象棋程序"纵马奔流"(取得了第8届Computer Olympiad象棋软件金牌)的数据

学位

计算机博弈电脑象棋启发式搜索

基于进程监控的数据防泄漏技术研究

随着计算机的应用以及互联网的迅速发展,电子文档的应用变得越来越广泛。电子文档具有易编辑易传播的优点,极大方便了人们的日常生活。但是,电子文档的非法篡改和传播会严重

学位

信息保护访问控制文件过滤进程监控透明加解密

基于IMS域电子白板系统的研究与设计——注册和会话管理子系统的设计与实现

3GPPR5中提出IMS通过基于IP的网络来控制语音、多媒体的呼叫和会话以及与其他网络的互联，从而支持多媒体业务。其概念最早在移动网中提出。IMS的核心特点是采用SIP协议和与接

学位

3GPPIMS电子白板SIP网络融合通信过程

面向可靠通信的认知AdHoc网络路由方法的研究

认知Ad Hoc网络是认知无线电技术与Ad Hoc网络融合而成一种分布式认知无线网络。与传统的无线Ad Hoc网络相比,主用户活动的影响使得认知Ad Hoc网络的环境更加复杂,信道资源和

学位

认知Ad Hoc网络可靠通信路由模型路由度量候补路由

基于Web Services的分布式服务发现系统的研究

分布式计算技术是近20年来影响计算机技术发展的最活跃因素之一,随着该技术的发展,分布式计算的应用也渐渐成为一种趋势。服务发现是其中的一个关键部分。设计的主要目的是为

学位

分布式计算服务发现Web Services服务订阅认证授权

可视化重构RFID中间件研究与开发

RFID技术，是从20世纪90年代以来高速发展的一项自动识别技术，具有优良的特性和广阔的市场前景。RFID中间件是联结RFID硬件设备和后台应用系统的纽带。随着RFID技术的高速发展，RF

学位

RFID中间件可视化重构移动RFID数据集成

Java分布式对象技术在企业中的应用

随着计算机网络的发展，越来越多地需要使用分布式计算技术来共享资源、平衡计算负载以及合理安排程序的位置。分布式对象技术是将分布式计算技术和面向对象思想结合起来的一种

学位

分布式对象技术RMI-IIOPCORBA应用集成

基于TextTiling的中文文本分割技术

与本文相关的学术论文