论文部分内容阅读
随着大数据时代的到来,计算机与信息处理领域的相关技术越来越成熟,为进一步提高军事信息化水平提供了科学技术保障[1]。目前,武警部队在社会面动态情报信息分析处理工作中对数据和信息的运用基本上还是停留在人工查询和简单统计层面,工作人员只能通过人工阅读浏览,才能找到其中的重要信息,工作十分繁琐且效率低下。由此,信息抽取技术应运而生,命名实体识别作为信息抽取技术的基础性研究工作,已经受到广泛的关注。从海量社会面文本信息中快速找到重要信息,不但可以提高工作效率,而且有利于日后的统计分析,为首长全面准确掌握当地社情、民情、敌情提供技术支撑,为定下处置决心提供智能辅助决策。本课题主要针对社会面动态文本信息开展研究,主要工作包括以下三部分:1、中文命名实体识别工具的评测与研究。基于1998年《人民日报》语料库对当前三个主流开源工具LTP、HanLP、BosonNLP分别进行了分词与命名实体识别性能评测,分析总结了它们的共性问题及优缺点,并使用三种工具对社会面动态文本信息进行实验对比。结果表明,BosonNLP在社会面动态文本信息中的识别性能表现最优,F值最高达到了90.27%。2、特征聚类与CRF相结合的命名实体识别方法研究。从本课题的实际应用出发,提出了特征聚类与CRF相结合的命名实体识别方法,该方法首先将已经分好词的预处理语料进行词汇向量化表示(词向量),然后通过K-means聚类方法进行聚类,把聚类后的类别特征作为一个外部特征加入到CRF模型中。最后,将本文提出的方法与BosonNLP、传统CRF模型进行实验对比,结果表明,本文提出的特征聚类与CRF相结合的命名实体识别方法在社会面动态文本信息中的人名识别准确率提高了5.41%,召回率提高了3.01%,F值提高了4.21%;地名识别的准确率提高了3.79%,召回率提高了2.87%,F值提高了3.34%。3、基于高德地图API的社会面动态信息可视化。使用社会面动态分析的命名实体识别结果,通过在线数字地图可视化的方法从时间维度、地区维度、案件性质维度三个方面综合展示当地社会面情况,为首长全面直观地掌握当地社情、民情、敌情提供技术支撑,为定下处置决心提供智能辅助决策。