基于语言模型的文本分割研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xieyinglan2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分割的实质是根据文本内子主题的相似程度,将文本切分成若干个语义段落,每个段落的内部具有最高的语义一致性。因此,文本分割最需要解决的技术难点为度量文本的相似性及识别语义段落的边界。本文从以上两个问题出发,重点研究了基于语言模型的词语特征提取,利用Dotplotting模型进行文本分割的相关内容及算法。本文对语言模型进行了相关研究。语言模型是一种概率统计模型,已被广泛应用于字符识别、机器翻译、信息检索等技术中,能很好的解决文本中词汇出现的概率问题。由于词汇构成了一篇文本,是文本最基本的组成部分,因此,可以通过对文本词汇的统计,获得文本主题的浅层信息。但是语言模型仅仅考虑了词汇概率并未考虑词汇的语义相关性,无法进一步获得主题的深层信息。基于此,本文提出了一种改进的二元语言模型Bigram,利用关联矩阵加强词汇之间的约束力,借此来描述句子的相关性并进行特征提取,进而确定子主题的相似性。由于本文使用语言模型进行特征提取,在自然语言中,绝大部分的词是低频词,因此肯定存在着稀疏的问题。而在语料训练中,最大似然估计赋予没有出现过的Bigram模型0概率,因此必须对语言模型进行数据平滑处理。本文分析了目前常用的几种平滑处理算法的特点,结合Bigram模型的特性,采用Katz算法进行平滑处理,以期得到更好的参数。本文使用Dotplotting算法进行文本分割。该算法考虑了文档中词汇分布情况并进行了全局的优化,但是在确定新的语义段落边界时,未能充分考虑之前已经确定的边界,且前向扫描与后向扫描得到的密度结果不相同。本文针对上述Dotplotting算法存在的一些不足,对其进行了一些改进:增加了后向扫描的密度值;考虑了过于短小的语义段落无法很好的描述一个子主题,增加一个段落的长度惩罚因子来加以约束;最后提出了改进的密度评价函数。总之,本文基于词语汇聚的思想,采用了二元语言模型Bigram以及Dotplotting算法对文本分割进行了深入研究,针对某些不足之处提出了改进的方法,通过实验结果的对比,验证了本文改进方法的结果,提高了文本分割的准确率。
其他文献
期刊
区域医疗信息化是我国医疗行业的重点发展方向。搭建区域医疗健康信息平台,可以有效提高工作效率、提高服务质量、提高管理水平。本文即以区域医疗健康信息平台为研究对象,对
在社会经济发展的背景下,会计集中核算制度不断完善并发展,并且在财务管理工作中广泛应用。将该制度应用于教育单位财务管理工作中,不仅提高了会计工作效率,同时,也增强了会
在人们的身边存在着这样一个特殊的群体,他们一生只有一个孩子,疾病或意外事件却让他们独子遭遇夭折的厄运。独生子女英年早逝,白发人送黑发人,是失独群体的真实写照。孩子的
强化大曲是通过人工方法,增加有益微生物数量,更好地调节菌群之间的均衡性,使大曲品质提升。通过试验,设置强化大曲不同菌种的扩培条件,进行单菌种和混合菌种的单因素轮换试
一、选择好草种要求既要高产,又要食口性好.还要能满足不同季节供草的需要。本地区气候温和湿润.夏秋季节野生杂草较好.冬季和早春青饲料短缺。因此.应选择冷季型牧草为主(如多花黑
在整个道路工程施工总成本中,机械设备的使用成本占比很重,尤其是在路面施工中,这一占比达到30%,且其中用在机械设备维修保养中的费用又占有较大比例。另外,机械设备保养工作
母猪产后不食症又称母猪懒月子病,是母猪分娩后常发生的一种以消化系统紊乱、食欲减退为主的临床综合症。本病是临床中最常见又难于治疗的产科疾病之一,轻则造成泌乳机能下降
保障安全与提高效益是当前高校固定资产管理的两大主要目标,在实际管理工作中存在诸多问题。本文通过高校固定资产安全与效益风险分析,从加强制度创新,完善责任体系,提升管理
<正> 一、渗流问题的有限单元法本文为不习惯矩阵的人,采用了与其它文献上所见到的矩阵表示不同的方法来叙述用有限单元法解渗流问题的方法,当然,这种表示与矩阵表示在本质上