基于统计模型的文本分割方法及其改进

来源 :山东大学 | 被引量 : 0次 | 上传用户:zjbme2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分割是信息检索和多文档摘要技术中的一个重要的处理步骤。通常一篇文本是由多个主题构成的,文本分割的主要任务是通过对文档结构的分析,识别出文本中不同主题之间的边界,将文本分割成多个主题段落,每一个主题段落描述一个单独的主题。本文在对已有的主题分割方法及词汇相似性度量概括总结的基础上,探讨了Masao Utiyama和Hitoshi Isahar等人提出的概率统计模型,该模型基于贝叶斯公式以及主题分割中的词汇集聚思想,定义了一段文本描述同一个主题的概率计算公式,作为确定分割点的标准,并且在确定分割边界时将待分割文本抽象为一个带权有向图,使用动态规划算法求解该图中头节点到尾节点的最短路径以确定文本的最大概率分割,取得了较高的准确率。本文在Masao&Hitoshi概率模型的基础上提出了文本分割的一点改进策略。针对Masao&Hitoshi概率模型中只使用段内相似度、没有考虑段间不相似度的情况,我们模拟计算了段间不相似度;针对Masao&Hitoshi概率模型在定义中没有充分考虑最终分段长度对概率影响的情况,我们基于在文本预处理时确定的主题段落的范围,定义了分段函数;针对同一主题内词汇可能比较分散难于确定边界的情况,我们通过在Masao&Hitoshi概率模型对应项中添加权值的方法来扩大词汇分散或集中的效果。实验结果表明,改进后的概率模型在一定程度上提高了分割的准确率。Masao&Hitoshi模型在确定分割边界时使用了动态规划算法,该方法不需要在计算前人为地设定先验参数。本文仍采用动态规划算法来确定分割边界。为了进一步确定概率模型改进后对分割结果的影响,我们也使用了基本粒子群算法来确定分割边界。所做工作在一定程度上改善了文本分割的性能。
其他文献
随着计算机技术的不断进步,人类创造的数据正以爆炸式的速度增长,传统的集中式的信息检索在面对海量数据时往往不堪重负,分布式的信息检索系统开始越来越受到人们的重视。集合选
随着互联网的发展和普及,医疗服务类网站越来越多,功能也更加的智能化,网上挂号功能也得到了普遍应用,用户可以不出家门就能在网上预约挂号,方便了用户就诊,传统的导医采用人工方式
数据挖掘是当今计算机研究领域中一个热点问题,它的意义在于从海量数据中挖掘出有效的,新颖的,有潜在应用价值的并且最终可以被人们所理解的知识。传统的数据挖掘关注的是如何找
当今社会,计算机网络发展迅速,确保网络信息的安全性就显得尤为重要。能够主动保护信息安全的入侵检测技术,作为一种保障措施而备受关注。神经网络的优势在于,它能够作为一种方法
社交网络的快速发展使得丰富的社交信息被应用到智能推荐领域,个性化推荐面临着巨大变革。近年来,如何利用社交信息解决推荐过程中的用户冷启动问题并提高推荐结果的准确度成为
随着互联网技术的高速发展和众多数据密集型应用的普及,互联网数据规模呈爆炸式增长。为了应对大规模海量数据的存储和处理问题,云计算技术应运而生且发展迅速,Hadoop作为主流的
在互联网高速发展的今天,网络上数据的增长已经非常迅速。如何从海量的数据中找出用户所需要的信息已经变得越来越重要。社交网络在web2.0时代也迅速流行开来,社交网络中文本
近年来,中国铁路在客运提速方面取得了重大成就,铁路客流量每年在逐步增加,进行团体票预订的单位/个人也越来越多,另外随着互联网信息化技术的发展,使得原有的团体票办理监督
随着科技进步和安全方面的迫切需求,单样本人脸识别越来越得到学者们的高度重视,并成为人脸识别领域的一个非常重要的研究分支。针对单样本人脸识别问题,主流的方法可分为四
人类已经进入大数据时代,各类知识和信息纷繁复杂。如何存储和利用这些资源已成为研究的焦点。与此同时各个系统越来越复杂,矛盾问题也越来越多。而计算机和网络也发展迅猛,