维吾尔语文本信息中人名实体识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:onepiece_bing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,NER)是指识别文本中的人名、地名、组织机构名等命名实体。命名实体识别作为自然语言处理(Natural Language Processing,NLP)领域的一个基础任务,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。由于人名作为事件的主体,因此人名识别是命名实体识别任务的重要一项子任务。本论文完成的工作如下:研究并实现了基于统计与规则相结合的维吾尔语人名识别。我们从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能。同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率。实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.我们利用各种统计模型做了对比实验尝试了三大命名实体,即人名、地名和机构名的基于统计的识别方法。通过对比实验也证实了条件随机场模型对于维吾尔语命名实体识别来说是性能最好的统计模型。同时,我们也利用地名库、地名特征词库和机构名特征词库等外部词典提高了识别效果。本文的研究结果还可以用于其他的维吾尔语命名实体的识别以及相关的文本分类任务。
其他文献
针对供电系统某些高压场合的温度不宜采用有线检测的问题[1],本课题开发了一种基于ZigBee技术的无线温度传感器网络系统。无线传感器网络(Wireless Sensor Network)综合了微
欧盟委员会3月18日在布鲁塞尔通过一项法规,规定在2009年至2012年逐步从市场上淘汰供家庭、工业部门和公共场所使用的白炽灯和其他高耗能照明设备,并对卤素灯和紧凑型荧光灯,
超声波无损探伤是无损检测技术中的一种重要的方法,它对于提高产品的质量和可靠性有着重要的意义,已经在钢铁、机械制造和造船工业等领域得到广泛的应用。本文以钢管的焊缝为研究对象,给出了一套基于FPGA+ARM结构的全数字化焊缝超声波探伤系统中的上位机控制与分析软件以及通信单元的设计。在对项目背景知识进行大量总结的基础上,本文首先在Windows操作系统下,以VC 6.0为前台开发工具,SQL Serve
随着互联网的飞速发展和全球信息化进程的推进,网络安全问题也口益加剧。而密码技术是保证信息安全的重要手段,是信息安全的核心。在各种密码算法中,分组密码具有加解密速度
伴随着计算机、图像处理、人工智能和模式识别等各项技术的迅速发展,近年来兴起了数字化视频监控的浪潮。视频序列中运动目标检测与跟踪技术不需要人为干预,利用计算机视觉和
过套管电阻率测井采用三电极法通过测量激励电流在套管上产生的电压降来测量地层的电阻率,为了消除趋肤效应、接触电动势以及电缆耦合的影响,采用超低频正弦交流信号进行激励
激光共焦扫描显微镜作为一种具有高纵深分辨率的现代显微成像设备,是生物医学、生命科学等领域研究的强有力工具。但是,由于成像系统衍射和噪声干扰等因素,所采集到的显微图
随着移动互联网迅速发展,移动用户数量飞速增长,为了提供更好的通信服务质量,新建基站的位置优化成了一个主要的问题。合理的基站位置优化能够降低其建设的费用、提高网络的
光纤光栅传感是20世纪70年代以来新兴的一项传感技术,目前已广泛应用于建筑业、电力工业、航天业、科研等民用和军用领域。光纤光栅是通过其反射波长的变化反映外界物理量的
自二十世纪九十年代数字集群被提出后,在国际上得到了普遍的应用,获得了较好的经济以及社会效益。TD-SCDMA是我国第一代拥有自主知识产权的电信技术,在通信容量和传输速率等