无监督的中文语义词提取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhjjchj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于词典的中文分词程序不能正确划分文本中包含的新词(词典中没有涵括的词)。如果需要处理的中文文本中包含很多新词,基于词典的分词效果并不理想。从文本中自动提取语义词,从中识别新词,用于扩充词典,是解决新词问题提高分词正确性的有效方法。基于统计的语义词提取方法可以分为有监督和无监督两大类,,有监督的方法依赖一个已经正确分词好的训练语料库,但是准备训练语料库需要耗费大量时间。相反,无监督的方法不需要训练语料库,而是使用一个语义度量准则(goodness measure)衡量一个候选词是一个语义词的可能性大小。本文研究无监督的中文语义词提取技术,提出了两种新的语义度量准则,重叠变化准则(overlap variety)和重叠评估准则(overlap estimation)。该准则可以解释为“如果候选词是语义词的可能性比它的重叠字符串高,那么候选词很可能是一个有语义的词”。另一种语义度量准则,重叠评估,用于衡量一个候选词包含粘合字的可能性大小。粘合字是经常挨在一个语义词的词首或词尾的单字词,但是粘合字与语义词组成的复合词是无语义的。另外,本文介绍了如何构建文本集的PAT-tree数据结构辅助语义词提取,减少语义词提取算法的时间复杂度。当文档集很大的时候,对文本集构建PAT-tree需要耗费很长的时间。本章提出一种基于多PAT-tree的语义词提取方法,该方法采用分而治之的思想,将文本集分割成n份,独立地建立n棵PAT-tree,并行地提取语义词,极大地减少了构建PAT-tree和提取语义词的时间复杂度。更加适合于在线的互联网应用。
其他文献
目的:探讨以血卟啉单甲醚(hematoporphyrin monomethylether,HMME)为光敏剂的光动力疗法(photo-dynamic therapy,PDT)对牙菌斑生物膜内致龋菌的杀灭作用及机制。方法:以变形
2010年11月13日,曾是2005年超级女声成都唱区第11名的王贝以及她母亲,一起走进位于武汉的中整形医院,进行颧骨降低和下骨缩小手术。在上午10时左右,王贝的手术先做,随后她的
蒙古语言文字在使用的过程中出现了很多值得关注的问题。对此,作为以蒙古语言文字为信息传播载体的媒体之一,·《内蒙古日报》首先注意从自身做起保护和准确使用并传播蒙古语
在人类文明史上,任何一个民族的文学发展而言,形式多样、内容丰富的民间文学是最初的文学样式,也是文学宝库中的一个璀璨的明珠。藏族典故谚语是流传于民间的比较简练而且言
改写和下划线经常被教师运用于评价二语或者外语学习者的写作输出质量,然而很少有研究者将这两种反馈方式纳入学伴反馈中,从而比较二者的不同作用。本文旨在研究改写和下划线
近年来,随韩礼德的系统功能语法在各种社会科学领域的进一步应用,系统功能话语分析的目的越来越多地倾向于通过话语分析对社会产生积极的影响。语篇分析的及物性研究方法始于
目的:研究紫地榆中4种活性成分对2种致龋菌生长及产酸的影响。方法:测定紫地榆4种活性成分对2种致龋菌的最低抑菌浓度及最低杀菌浓度,测定其对2种致龋菌生长和产酸的影响。结
目的:探讨相位对比磁共振技术(Phase Contrast Cine Magnetic ResonanceImaging,PC Cine MRI)在心血管系统各种疾病应用的可能性,深刻了解其临床应用价值。方法:用PC Cine MRI技
近十多年来,我国的蒙古语方言研究取得了可喜的成果。但迄今为止,还存在着一些尚未系统深入研究的环节。其中包括苏尼特口语的考察与研究。鉴此,作者于2009年7月赴锡林郭勒盟
为了能够量化分析汉语、英语的处理难度或感知难度,我们以人脑中平均每一时刻(每处理一个新单位时)脑子中记住的离散句法块数为基础,计算汉英文本中的平均结构难度。本文借鉴