面向通信领域术语的命名实体识别

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 2次 | 上传用户:ZNZXCTH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别技术是自然语言处理中的一项基础技术,为其他任务提供重要的基础信息保障。本文所研究的通信领域具有知识专业性高、术语庞杂丰富、细分领域多样等特点,却缺乏必要的高质量实体列表和语料库,上述情况严重制约了该领域命名实体识别任务的开展。同时,虽然命名实体识别技术在常规领域已经取得了良好的效果,但当其应用于通信这种专业性强的领域时,往往会出现很多的适应性问题。目前,针对通信领域进行的命名实体识别研究甚少,随着通信技术的蓬勃发展,准确、高效的从通信领域专业文献中提取命名实体,是支撑自然语言技术在该领域深化应用的基础,对其他专业领域应用此项技术也具有较高价值的借鉴意义。本文围绕通信领域中文命名实体抽取任务展开,结合背景项目提供的资料,补充了中国通信标准化协会在《通信词典检索系统》中定义的术语,及从知网爬取的通信专业文献摘要的语料。本文对通信领域命名实体的特点进行了分析,提出了该领域嵌套命名实体构成的基本假设。然后基于此假设,重点研究了词典构建中的词汇领域性判别问题和特征选择中的字/词维度适配问题,提出了基于隐性迪利克雷分布(Latent Dirichlet Allocation,LDA)模型的词汇领域性判别方法,以及基于双层条件随机场(Conditional Random Field,CRF)模型的通信特征提取方法。随后,选择了若干通信领域特征,以长短期记忆网络(Long Short-Term Memory,LSTM)模型为基础,利用前置CRF层将领域知识映射进输入特征,构建了面向通信领域术语特点的命名实体识别模型。最后,对设计的特征进行了叠加测试,对识别的效果进行了对比测试,验证了所选领域性特征的有效性,以及所设计模型对通信领域的适用性。本文的成果已经应用于某企业通信知识图谱的构建工作中,为准确提取对象本体的标称量提供了重要基础技术支撑。同时,本文的成果对其他类似专业领域的命名实体识别研究也有重要的借鉴参考意义。
其他文献
本刊讯:英贝特公司近年来一直致力于军用加固笔记本的自主研发工作,开发了多款适用于军事作业的便携式加固计算机。新推出一款支持4个标准3UCPCI插槽的加固计算机(命名HT-C91
期刊
蓄能器内氮气多变过程模型的精度是影响油气悬架系统特性分析的关键因素之一。为了更加精准地描述蓄能器内氮气的真实多变过程,该文利用蓄能器试验台开展了蓄能器不同振幅和
在公路交通安全的影响因素中,公路设计是其中一个重要的因素。从路线、公路构造物、路线交叉、沿线设施及公路景观等方面分析了影响交通安全的公路设计因素,为公路的安全设计
自台湾新生代导演九把刀的电影《那些年,我们一起追的女孩》,2012年在大陆上映以来,国产电影圈迅速就吹起了青春片之风。从2013年电影《致我们终将逝去的青春》票房7.08亿到
"亲亲相隐"是近年来国内哲学界争论得比较激烈的一个论题。王庆节将"亲亲相隐"之"隐"作"隐讳"与"隐痛"双重解释,并将"亲亲相隐"之"隐痛"作为"道德困境"的表达。本文通过训诂
线粒体是真核细胞特有的含有核外遗传物质的细胞器,是机体的能量代谢中心,掌控着机体生存命脉。细胞在生命周期中需要不断产生新的线粒体及对受损线粒体进行损伤修复,从而维
女性生殖系统结核是由结核分枝杆菌侵入机体引起输卵管、卵巢、盆腔腹膜、子宫内膜及子宫颈等生殖器官的慢性炎症病变,由于临床表现缺乏特异性,临床误诊率较高。随着腹腔镜检
在文辞修饰的范畴之中,对于隐喻这一概念的定义,不仅仅是将其作为一种修辞手段,更是对人自身创造性思维的一种体现。从认知的角度来看,对隐喻的概念进行明确,为了实现对大学
<正> 硝苯地平(Nifedipine,NF,又名硝苯啶,硝苯吡啶,心痛定)为目前较强的Ca~(++)拮抗剂,不仅能作用于血管平滑肌,而且作用于消化道、支气管、泌尿道等部位的平滑肌使之舒张。
八九十年代及以前设计、安装投运的自备电厂供热、供电机组及其电气系统,突出问题是故障停机次数多。其配备的继电保护常因误动作、拒动作、触点卡死等,造成厂内电气系统瓦解,直