无监督分词算法在新词识别中的应用

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:fakemario
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88. 3% 、80. 5% 、85. 9% 、91. 9% .实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性.
其他文献
乳腺癌诊断的图像处理过程主要包括以下三个步骤:感兴趣区域(ROI)提取、图像增强和特征提取.由于传统的图像增强方法是应用在整个ROI上的,因此ROI中不相关或无用信息的增强会转化为劣质特征.为了解决这一问题,提出了基于信息熵的图像局部增强策略.该策略对每幅乳腺图像的ROI进行局部分割,选择熵值最大的区域块.通过多轮的图像增强策略进一步改进优胜块,并嵌入到原始ROI中.在此过程中,将由熵权法计算结果
针对传统布匹疵点人工检测成本高、识别稳定性差的问题,本文提出一种基于深度残差网络的布匹疵点检测方法.首先,采用线阵相机、线性光源和传动系统设计布匹疵点检测装置;其次,根据采集图像的灰度值调整光源的光照强度,并对采集图像进行去噪滤波预处理;然后使用深度残差网络修改Faster R-CNN中的原始特征提取网络,获得更高的疵点特征精度;最后在Faster R-CNN的区域生成网络中增加预测锚点框,提升多
医学文本中经常存在某个化学物质与多个不同疾病同时相关的情况,传统的深度学习方法不能充分利用句子的长距离依赖信息和其他文本特征,导致医学实体较多的长文本中存在核心实
为了更好地实现图像拼接的实时性、提高特征点匹配的效率和图像拼接的准确度,本文提出了一种基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)与互信息的图像拼接算法.首先,为了图像拼接的实时性,用ORB(Oriented FAST and Rotated BRIEF)算法快速提取特征点,在此基础上利用DBSCAN聚类
针对目前在对图像中的物体进行分割时存在的分割精度不高,分割后物体缺失严重,边缘不清晰等问题,提出了一种结合多种图像分割算法的实例分割方案.该方案首先通过具有实例分割功能的Mask RCNN算法对输入的图像进行初步的分割,得到初始掩膜.再通过SLIC超像素分割算法对原图进行超像素分割得到超像素块,结合超像素块对初始掩膜的边缘进行扩展,结合扩展后的掩膜和初始掩膜进行形态学操作得到GrabCut算法分割
针对现有的序列推荐算法仅利用短期用户行为做推荐,而没有充分考虑用户的长期稳定偏好和项目之间更深层次联系等问题,本文提出一种融合知识图谱与长短期偏好的推荐算法.本算
针对粗糙集方法不能有效处理数值和混合型数据的问题,本文以邻域粗糙集中粒计算为基础,提出了一种基于邻域粒的离群点检测方法.首先,给出了邻域粒之间距离的定义.其次,定义粒
胸膜结节的灰度与肺实质外围灰度十分接近,很难运用传统算法分割这种病变部位.针对胸膜结节难以精确分割的问题,在本文中提出了一种结合CV模型与贝叶斯模型的优化算法,本算法采用CV模型进行初分割,并在分割结果基础上采用了贝叶斯方法:通过CT图像上一帧来预测并更新胸膜结节信息,最后将筛选出的病变区域添加到初始分割轮廓上,完成肺实质的自动分割.运用本文提出的方法,对来自LIDC公开数据集中的32位病人共计2
现有邻域粗糙集模型可用于处理包含名义型和数值型两种类型共存的混合数据,但较少考虑混合数据的不完备性.本文从缺失值的两种语义解释出发,即“不关心值”和“丢失值”,通过
针对老年人异常步态识别问题,提出了一种基于代价敏感支持向量机的步态识别系统.该系统首先对采集到的步态信号使用巴特沃斯带通滤波器进行滤波并使用双树复小波进行步态信号