基于朝鲜语语料库的人名自动识别方法研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:lainfaye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中,英文信息处理经历了半个世纪的发展,在基础资源的建设,词性标注,信息检索,文体分类,机器翻译,语言识别与合成,人机对话等领域都取得非常大的发展,中,英文信息处理的现代化发展,对国内少数民族语言信息处理的理论与技术发展也起到了深刻的促进作用。与中,英文信息处理相比,朝鲜语信息处理虽然起步稍晚,但也取得了一定成果。朝鲜语信息处理已初步完成了字,词处理阶段,现已进入句处理阶段,朝鲜语信息处理已完成短语结构关系识别,短语边界界定等浅层句法分析任务,正向深层句法分析迈进,朝鲜语信息检索,自动文摘,文体分类,机器翻译的研究也方兴未艾。本文首先分析了人名识别的困难,并对现有的人名识别方法进行了简单介绍和比较;其次,以2016年5月~2017年5月间《延边日报》中出现的人名作为主要样本;最后建立了人名样本库,姓氏库,人名语料库等在人名识别前所需要语料资源,并对这些资源进行统计分析的基础上,建立了各种人名用字表,姓氏概率表,人名上下文信息表,姓氏用作普通单字时的上下文信息表,人名前缀,后缀表等人名识别过程中所需的数据资源。本文基于人名驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种人名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突提出解决策略,实现人名的自动识别。
其他文献
随着新能源汽车的普及,原先被发动机背景噪声湮没的其他振动噪声问题(Niose、Vibration、Harshness简称NVH)日益突出,异响(Buzz,Squeak,Rattle简称BSR)作为汽车NVH重要组成部分,其性能优劣严重影响汽车的品质和舒适性,近年来引起了主机厂的高度重视。仪表板是车内异响高发区域,目前主要通过后期零部件和整车试验发现并解决异响问题,这种基于发现-修复的方式耗费时间长
相干光通信系统外差探测灵敏度高、通信容量大、调制方方式灵活,研究相干光通信系统中光束的传输特性对提高混频效率具有重要的意义。在实际中,由于热效应、谐振腔尺寸和光学
随着时代的发展,教育也进入了发展阶段。课件也成为了先进的教学手段。课件使教学模式得到了改善,有效的提高了学生的蒙古语文课程水平。课件的信息量较强,有利于化抽象为直
隧道结构作为我国地下基础设施建设的重要组成部分,其全寿命周期安全至关重要。而我国位于环太平洋地震带与欧亚地震带之间,地震活动频繁,在强震区修建的隧道工程面临极大的地震安全风险。因此,在隧道结构安全设计中除需考虑周围岩土体的静力荷载外,还需考虑地震动带来的附加地震荷载。对隧道设计者而言,直接有效的隧道地震内力及变形计算方法对隧道抗震设计尤为重要,因此开展关于隧道等地下结构地震响应简化解析方法的研究具
能源一直是衡量一个国家经济发展的重要标准和保障,十九大以来,能源革命向纵深推进,人们对能源的需求加大,对能源的利用也需要合理化。可充电锂离子电池广泛用于便携式电子设备,电动汽车,混合动力汽车等领域,尽管石墨已经广泛应用于商业化的锂离子电池当中,但是它的放电电压较低,有一定程度的安全隐患。二氧化钛作为过渡金属氧化物,它具有工作电压高,充放电过程中体积变化小,安全性能强,循环性能稳定等特点。二氧化钛通
随着近年来通信技术的飞速发展,移动数据流量呈现指数型爆炸式增长趋势。为了满足用户对于数据速率的需求,运营商需要布置更多以及更小的基站,因此超密集网络架构逐渐成为广
目的:研究SPECT/CT鉴别诊断新鲜和陈旧性骨质疏松椎体骨折的价值,确定半定量法鉴别诊断新鲜和陈旧性骨质疏松性椎体骨折的临界值,探讨新鲜和陈旧性骨质疏松性椎体骨折椎体浓
本文旨在就奥巴马政府与巴基斯坦的总体反恐合作进行分析和评价,侧重于研究美国在奥巴马执政期间为消除来自巴基斯坦的恐怖主义采取的相关措施及行为。作为国家安全的重大威
减刑制度是在刑罚过程中经常实行的且在我国有无比重要的作用,因其巨大的优越性在刑罚执行的过程中占据了举足轻重的地位。减刑制度不仅能够有利于罪犯的感化、教育,而且能够
随着新一轮的科技革命和产业变革席卷全球,云计算、大数据、区块链等新兴技术的出现深刻的改变着现代人的生产和生活方式,这些已经成为了经济增长的新动能。区块链技术将数据信息采用分布式的方式进行记录,并且由所有的参与者共同记录,这些信息会被存储在所有的节点之中,而不是像传统数据库一样,仅仅存在唯一的中心化机构,因此在安全性方面,较传统技术实现了质的突破。但是也正是由于和传统技术的差异,很多常用的隐私保护方