基于位置敏感Embedding的中文命名实体识别

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:j621212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于条件随机场的中文命名实体识别任务中,现有表示学习方法学习到的特征存在语义表示偏差,给中文命名实体识别带来噪声。针对此问题,提出了一种基于位置敏感Embedding的中文命名实体识别方法。该方法将上下文位置信息融入到现有的Embedding模型中,采用多尺度聚类方法抽取不同粒度的Embedding特征,通过条件随机场来识别中文命名实体。实验证明,该方法学习到的特征缓解了语义表示偏差,进一步提高了现有系统的性能,与传统方法相比,F值提高了2.85%。
其他文献
感受东西方差异美联航的宽体波音747算得上是比较大的飞机了,要不怎么能容得下400人?我们这一班北京—旧金山的是满客,美国乘客比中国乘客多出不止十倍。开始我以为可能是从北京飞往美
随着我县山羊养殖量的增加,我县2011年~2014年展开对山羊寄生虫危害及流行情况进行调查,并针对性进行防治,经过4年的努力,我县山羊寄生虫防治取得了较好的效果。
北京帝王高级润滑油有限公司是坐落在北京大兴黄村卫星城西北角的一家生产和销售润滑油产品的民营企业。公司成立之初,面对激烈的市场竞争,他们确立了“科技促开发,品牌拓市场”
为降低颜色串扰对提取结构光图像特征的影响,通常将多像素条纹细化为单像素线条,降低了重建图像空间分辨率。针对这一问题,设计一个基于面结构光几何关系的三维数字化系统,并提出一种以面结构光投影仪像素为单位的特征提取与匹配新方法。首先,投影仪向被测物体投射设计好的面结构光,为被测物体增加有效特征,双目摄像机捕获被测物体两张图像,设置阈值滤除图像背景、去除噪声,提高图像质量;然后,基于单位投影像素提取特征点
针对现有的并行模糊测试在测试效率、资源利用率以及异常处理上的局限性,围绕测试资源的生成、使用及容错三个方面提出了一种动态资源感知的系统化解决方案。针对测试环境在大规模和多场景两个维度快速搭建的需求,提出一种基于云平台的动态构建方法,加快测试环境部署,提高有效fuzz时间;针对并行模糊测试中资源利用率低的问题,提出一种多层次并行度动态调整的资源配置策略,优化整体测试资源配置并提高单机负载;针对大规模
通过对商品评论进行基于方面的情感分析,可以得到某件商品各个方面的优劣情况。提出利用三层CRF模型进行情感极性分类及强度分析。在CRF模型中,融合了词、词性、语气词、程度词、方面和评价词的共现等特征。在情感句识别、情感极性分类和情感强度分析上得到的F1值分别为86.3%、77.2%、70.7%,证明了:a)分层CRF模型在各个层次的任务中都能取得较好的结果;b)语气词、程度词、方面和评价词的共现特征
【正】 非公科技企业作为经济和科学技术有机结合的载体,显示着越来越强的生命力和广阔的发展前景。但是如何使这种“生命力”不断得到发展,企业内部具有一个良好的运作机制
针对目前聚类算法不能有效地处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下的真实核心点根据密度可达原则进行聚类;然后提出密度合并判定定理:相同类簇内点的真实密度远大于不同类簇的点,以此为指导判断真实核心点的真实密度,使类簇内各点的相似性更大。通过人工数据集与UCI数据集聚类
时态信息广泛应用在自然语言处理、信息检索等领域,而时间关键词识别更是时态信息应用的关键,其直接影响到时态信息的使用。时间信息在文本或句中形式多样性、位置随意性以及边界不确定性等特点成为时间关键词识别任务中的难点。为了解决中文时间关键词的识别问题,通过分析文本语句结构并结合语法结构树提出短语划分方法,将文本转换成短语集从而确定短语边界;在此基础上提出短语向量化表示法,以此构建向量空间;最后,引入谱聚
针对传统协同过滤算法中存在的数据稀疏性问题,结合用户评分及用户评论信息的特点,提出了基于评论与评分的user-based协同过滤算法和基于评论与评分的item-based协同过滤算法。该算法利用主题模型产生评论主题分布,利用评分数据生成评论态度影响因子,并通过评论态度影响因子来放大评论主题分布中的突出特征,建立更为准确的用户偏好与物品特征,进而进行评分预测与物品推荐。实验结果表明,该算法在稀疏数据