WAF在文本处理中的应用研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:suguangli1507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词和新词发现是中文文本处理和自然语言处理中最基本和最重要的研究,它们效果的好坏直接影响到所在领域中进一步研究的效果。现有方法存在着依赖词典、依赖标注语料、低频词发现效率低等问题。本文结合2元语言模型(Bi-Gram Language model)改进了WAF(Word Activation Forces,词激活力)模型,并基于它提出了一种的无监督机器学习思想,不依赖词典和标注语料,由字构词,同时完成分词功能和新词发现功能。对于分词和新词发现,本文结合改进的WAF模型试验了最大匹配法、入链出链对比法、排序法,最终提出了动态规划迭代法。方法利用字间关系提取候选串,解决了低频词发现效率低的问题;利用动态规划完成词义消歧,解决了依赖标注语料的问题;利用分词结果筛选词表,解决了垃圾串过滤问题。本文采集10万条微博数据进行实验,结果表明,本文提出的基于WAF模型的方法可以有效解决上述问题,WAF模型在文本处理中有着较好的应用效果。
其他文献
利用通过2代群选和4代家系选育的建鲤新品系与市场上的普通建鲤和自繁的福瑞鲤,进行中试和小试,测定经过多代选育的建鲤新品系的育种效果,中试验结果表明建鲤新品系F4比普通
瞬变电磁法(Transient Electromagnetic Method,TEM)是一种建立在电磁感应原理基础上的时间域电磁探测方法,TEM信号具有非线性、非平稳性、非最小相位等特征,不符合以平稳信
极低速率通信作为一项应急通信技术,能够有效的解决常规通信方式中断时的可靠通信问题。然而由于信息传输速率极低,频偏会极大的影响通信质量。因此,如何准确地估计频偏,消除
学位
随着因特网的发展,人们对网络带宽、性能、服务质量等方面的需求越来越大,新协议、新应用、新服务也不断出现,与此同时,传统网络暴露出如服务质量不稳定、网络难以管理、安全
摘要:随着我国教育改革工作的逐步推进,初中语文教师在对学生进行现代文阅读教学时,为了进一步促进学生阅读能力的提升,从而将“读品悟”这种新型的阅读教学模式运用到了教学中。通过这种方式,帮助学生更有效率地进行阅读教学,进而进一步提高学生的阅读水平,以促进学生的进一步发展。  关键词:初中语文;阅读教学;现代文阅读  中图分类号:G633.33 文献标识码:A 文章编号:1992-7711(2017)1
摘要:《希腊神话故事》是一本经典传世之作,它可让学生感受古希腊灿烂文明。但在阅读上也给学生带来了一些困难:一是音译人名长,生僻字多;二是一个故事出现出的人物多;三是人物关系错综复杂等。这就为学生了解人物形象,理解人物关系,理顺故事情节,深化阅读等带来一些障碍。为此,本文在整本书的阅读上提出四个主要对策:其一,用名字卡,游戏比赛叫准人;其二,写名片卡,记述特事把握人;其三,画导图卡,手段多样理情节;
随着科学技术的发展和社会的进步,人们对通信服务的要求越来越高,而可用频谱资源则变得越来越紧缺。60GHz系统由于拥有5-7GHz的免许可连续频谱资源受到了广泛关注。GHz级别的
在多用户多中继无线网络中,通常情况下用户到基站的距离比较远,用户到中继的距离比较近,而路径损耗会随着距离的增加而增长,使得用户到基站的信道条件比用户到中继的信道条件
研究背景: 肽抗生素(peptide antibiotics)是生物体基因编码的、具有抗微生物活性的小肽。它通常由12~60个氨基酸所组成,分子量小于10kD,是生物体天然免疫的重要组成部分,是宿