邻接熵相关论文
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供支持。目前新词识别方法没有考虑针对谐音词的识......
期刊
在日常生活和工作学习中,人们已经习惯从互联网中获取信息,搜索引擎成为沟通人与互联网信息的桥梁。伴随着各行各业不断信息化的发......
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方......
为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法。分析行业领域未登录词构词特点,制定扩展......
互联网高速发展的今天,人们习惯于通过网络来发表一些言论,舆论传播速度不断加快,影响力度也不断增强,于是有关舆情监控的产品在市......
【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题,提出了融合多策略的短语识别方法。【方法/过程】该方法融合多统计......
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串......
在微博中,新词的构词规则多样且复杂多变。针对基于词内部结合度与边界自由度的新词发现方法对新词内部结合度不高的问题,改进一种......
中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻......
将Memetic算法用于拓扑优化,通过采用进化搜索和局部搜索结合的混合搜索策略,有效加快了收敛速度。Memetic算法的进化搜索策略与遗......
针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(......
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。......
如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语......