一种新词自动提取方法

来源 :电信工程技术与标准化 | 被引量 : 0次 | 上传用户:ning211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络语料会不断出现大量新词已经成为一种普遍的趋势,这里面包含大量网友创造的新词,以及一些社会热点形成的新词。同时社交网络产生的社交性语料存在大量口语化、简称和随意的表达。这些都对中文分词的准确性造成了困扰。本文提出了一种新词自动提取方法,旨在能准确快速地在特定的语料里提取新词,生成特定领域词典,更准确地对网络语料进行中文分词。通过从语料中提取候选词,计算候选词的支持度和置信度,通过阈值刷选出新词,从而实现从海量文本中准确且快速的提取新词。
其他文献
通过对死区效应原理和死区消除原则的分析,提出一种在线自适应的PWM死区消除方法。该方法通过在线跟踪负载变化,自适应地计算出最优的电感电流过零区域宽度,以精确实现电流过
国内对品牌形象理论的研究,主要以消费者对品牌的总体感知和看法为主导,认为品牌形象是由存在于消费者头脑中的品牌联想反映,或者是品牌构成要素在人们心理上的综合反映决定
云南是中国长江以南重要葡萄产地,以红壤为主的葡萄园土壤出现酸、粘等退化现象,导致葡萄产量和品质下降,因此改良退化的葡萄园土壤就成为发展葡萄及葡萄酒生产的关键。笔者
将正硅酸乙酯(TEOS)与甲基丙烯酸羟丙酯(HPMA)经酸催化合成一种表面带有双键的二氧化硅活性粒子,然后与甲基丙烯酰胺、环氧树脂等共聚制备有机硅改性环氧丙烯酸阴极电泳漆。
<正>从理论角度分析,造成小微企业融资困境的根源有两个:资金供需双方之间信息不对称和风险管理上的激励不相容。在大数据时代,这两个困局正在出现转圜的可能。颠覆银企信息
作为现象学认识论启蒙之关键的范畴代现中存在着两个裂隙:在内感知中,感性内容不能被范畴化;在范畴代现内部,两种代现的代现方式以及相即性也各不相适。这两个裂隙实际上源于
刘易斯作品《纳尼亚王国传奇》对《圣经》的历史纪年、叙事结构,主题以及人物都进行了全面的戏仿。因此本文试图以戏仿理论为指导,以小说对《圣经》的戏仿为切入点,从文章的
阿Q是鲁迅先生中篇小说《阿Q正传》中的一个典型人物,他是个落后的不觉悟的农民。他那永不衰败的"精神胜利法"的实施,以及为此所做出的言行举止,常常令人捧腹大笑;他那逆来顺
非物质文化遗产体现民族心理和民族价值观,是民族文化的精髓。随着现代化进程的加快,民族地区和外界交流增多,民族文化渐现缺乏民族性。而学校教育的普及一方面使学生少了学
从钢筋加工、混凝土搅拌、布料及张拉、离心成型、蒸汽养护、拆模及模具清理、蒸压釜养护等方面介绍了年产150万m的管桩生产线工艺设计思路和特点,并针对管桩生产线的工艺设