基于规则的蒙古文人物属性抽取研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:iamdade
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的互联网时代,网络上充斥着海量繁杂的信息和数据,且多以半结构化文本或自由文本形式呈现。用户对搜索所关注信息的效率性和获得结果的准确性有着越来越高的要求,由此,信息抽取技术(IE)以帮助用户快速获取目标内容为目的而得到迅速的发展。目前信息抽取技术虽在中英文的研究上已获得不少实用成果,但在少数民族语言如蒙古文中,信息抽取的研究和应用基本仍处于空白阶段。本研究中涉及到的信息抽取特指为实体关系抽取,旨在从大规模的文本数据中提取出目标信息如人物属性值,然后将抽取结果以结构化的形式保存到本地,并为用户提供后续的查询功能,同时此研究也是构建蒙古文人物知识库或人物搜索引擎等网络应用的一项基础工作。本文以基于规则的方式,以蒙古语新闻网站爬取到的蒙古文无结构文本为研究对象,针对关注度较高的人物领域,研究了对人物属性的抽取。本文的重点研究工作如下:(1)设计爬虫工具,从多个蒙古文新闻网站,分别根据其中新闻正文所在网页的结构和网址特征爬取文本,对其进行多项预处理工作,再采用BLSTM与CRF相结合的模型进行命名实体识别,得到最终标注语料库,作为后续分析处理的基础资源。(2)使用人工制定的触发词库与规则库对语料文本中蕴含的人物属性值以“人物-属性-属性值”的三元组形式进行抽取和保存,得到了高准确率的抽取结果,证明本文提出的基于规则的抽取方法可行有效。(3)设计实现了蒙古文人物属性抽取系统,该系统提供人物属性抽取和人物相关属性信息查询两个功能模块。
其他文献
在声呐技术中,声呐图像分割结果的准确性直接影响后续的处理环节以及最终对声呐图像的理解,因此声呐图像分割在声呐技术中具有重要的地位。但是由于声呐图像受海底噪声影响,
随着信息技术的飞速发展,作为分离有用和无用信号的模拟滤波器是信息产业中的重要部件,其性能的优劣直接影响整个信息系统的质量。由于电流模式电路在带宽、速度以及线性度等
随着现代工业技术的不断发展,数字电路的集成度越来越高,系统芯片(System-on-a-Chip,SoC)上集成的知识产权核(Intellectual Property,IP)越来越多,功能也越来越复杂。在测试
3D视频以其观看时强烈的立体感和全新的视觉体验日渐成为数字媒体发展的主要趋势,而在目前2D-3D图像/视频转换技术中,基于深度图绘制(DIBR)3D图像技术由于具有所需的数据量小
在这个数据日益增长的时代,各类电子设备在每时每刻都会产生或多或少的数据,有时产生的数据往往维度非常高,即称为高维大数据,然而数据挖掘中需要处理的高维数据通常包含冗余
左手材料是等效介电常数与等效磁导率同时为负的一种新型人工材料。作为21世纪科学界的最大发现,它奇异的微波特性很快就引起了广大学者的研究兴趣。负折射、逆多普勒效应和
“精准农业”是当今农业最富有吸引力的前沿课题,通过引入现代技术和科学管理方式,获取农作物生长过程中的参数信息,辅助管理人员做出科学决策,以提高农作物的产量。多光谱技
人类对无线电频谱资源的需求急剧膨胀,为了有效地利用稀缺的无线电频谱资源,一些频谱利用率较高的调制方式和传输技术如多电平正交幅度调制(M-QAM)、正交频分复用(OFDM)、宽
近年来,互联网以及社交通讯的飞速发展给许多企业带来了技术的革新。企业可以通过基于互联网社交平台的投诉反馈通道,快速地收集到各类产品评价及服务质量等投诉反馈信息。对
在大数据时代,数据信息是最有价值的抽象事物,数据中蕴含着大量的有价值的信息,需要将这些信息提取出来,数据挖掘是实现的重要过程之一。数据挖掘是现今社会的热门学科,是从