基于特征过滤对比的新词语识别

来源 :渤海大学 | 被引量 : 2次 | 上传用户:iPegatron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词语的自动识别是语言监测工作中的重要环节,更是新词语研究的重要手段。这一技术的深入发展可以有效地促进汉语信息处理、词典编纂等工作的开展。对于新词语的自动识别,其本质在于新、旧字符串的对比。这些字符串就需要从前景语料和背景语料中分别获取。不论是采用基于规则的方法还是基于统计的方法,在字符串获取的过程中都会产生大量的垃圾串,尤其是从前景语料获取的字符串,这些垃圾串的大量存在都会严重地影响新词语的识别效果。因此,通过分析新词语的不同特征,提出基于特征过滤的字符串获取方法,这一方法是在字符串获取之前,将一些构词能力差的语言成分删除,这样可以有效地减少字符串的产生,以便进行下一步处理。在垃圾串过滤阶段,根据新词语的构成特点,提出基于二元结构的过滤方法,该方法可以有效过滤由三个或三个以上分词碎片构成的垃圾串。在过滤的基础上,对候选串进行多方面统计特征值的考查:从成词概率、构词模式概率及平均互信息的计算结果判断该候选串的有效性。在不使用统计模型的情况下,召回率与准确率分别为86.22%和0.15%;在使用统计模式之后,召回率与准确率分别达到43.86%和49.92%。
其他文献
目的分析有关老年患者冠状动脉粥样硬化性心脏病(冠心病)发病的危险因素。方法选择2011年6月至2012年6月兰州军区乌鲁木齐总医院确诊的120例冠心病患者作为冠心病组,根据血管
克氏原螯虾,俗称小龙虾,自上世纪传入我国,发展至今已成为我国淡水养殖虾类中的重要经济品种,为我国农业经济发展和农民增收作出了重要贡献,但却长期饱受“绯闻”困扰。本期我们将
目的:分析在胎膜早破护理中应用循症护理的效果。方法:随机选取2014年8月至2015年9月来本院治疗的胎膜早破孕妇i00例视作研究对象,将其随机分成观察组和对照组,观察组给予循证护
近些年来,随着人们的生活水平的不断提高,以及环境意识的不断加强,人们对于生活、城市公园的环境与品质要求也在不断的提高。然而另一方面,环境的不断恶化,能源的不断消耗,随之这段
语言是人类的交际工具。长久以来,人类对语言的探索和研究从未停止过,近年来,功能性特征鲜明的句子和词语因其重要的理论价值和应用意义而备受语言研究者的关注。制止警告是一种
感染后咳嗽(post-infectious cough,PIC)病因分布随年龄、性别、病程、地域等存在差异,中医根据其病程、咳嗽、地域特点并结合患者具体情况,因时、因地、因人治宜,辨证施治,
在对国内外相关文献进行述评的基础上,对协调发展视角下金融支持新型城镇化的内涵、特征及相互影响作用机理进行了深入分析,并利用协调度评价模型对1994~2012年两系统的协调
随着翻译研究的“文化转向”,越来越多的研究者开始从语言的外部因素入手开展翻译研究。作为翻译过程中最为关键的“人”的因素,译者及其主体性不容忽视。作为翻译的主体,译者要
孔子用以仁为核心的内在要求和由礼、义构成的外在制约构成了君子人格理论.亚里士多德从最高的善出发走到了有德性的人,发展出西方理想人格理论.从理想人格的内在要求和外在
目的 探讨液基薄层细胞学检查(TCT)联合人乳头状瘤病毒(HPV)DNA检测在宫颈病变筛查诊断中的作用及其临床意义。方法 采用TCT联合HPVDNA检测对2856例女性进行宫颈癌变筛查,筛