论文部分内容阅读
随着数字化城市的发展,城市管理进入信息化时代,百姓通过数字化平台反映城市管理中存在的问题。由于他们年龄、学历、表达方式存在差异,导致城市管理投诉语料存在格式不规范,表达不统一等特点,工作人员只能逐字浏览,才能发现其中的重要信息即事件信息,工作繁琐且效率低下。利用信息抽取技术,自动抽取其中的事件,将非结构化数据转换为结构化数据,不仅大大减轻了工作人员的工作量,提高了工作效率,而且结构化数据有利于直接的统计分析,能够提高城市管理部门掌握政策的实施效果以及阶段时间内社会管理当中存在的突出问题等,为其在日后的政策制定、工作绩效评估以及工作重点的确定等方面提供预警信息和决策依据。本课题主要针对城市管理投诉文本进行了研究,将课题研究分为4部分:投诉文本中地理位置实体识别、投诉文本中地理位置实体规范化表示、投诉文本中的领域词自动抽取、投诉文本中的领域词规范化表示、投诉文本中事件的统计分析。(1)投诉文本中地理位置实体识别研究。分析地理位置实体的特点,提出地理位置实体识别模型,该模型利用分治策略,将地理位置实体的识别分为基本地名的识别和指示词库的构建。首先利用CRF角色标注方法,识别基本地名;其次利用半自动方法构建指示词库;最后提出依附连接算法,连接基本地名与指示词,最终实现地理位置实体识别。实验结果表明,该方法有显著效果,F值达到84.79%。(2)投诉文本中地理位置实体规范化表示研究。首次提出了基于百度地图API的地理位置实体的规范化表达研究,通过百度开放的Place API对缺陷地理位置实体进行检索,根据检索的结果构建所属区域的特征向量,并在其基础上,利用规范化规则对缺陷地理位置实体进行区域补全,最终实现地名规范化表示。实验结果表明,该方法效果显著,正确率达到97%。(3)投诉文本中的领域词自动抽取研究。通过分析领域词的特点,从领域词类间分布、类内分布和语料规模的不平衡性三方面考虑,在方差的基础上计算领域度,提取候选领域词,然后利用词语结合度在原文基础上对候选领域词进行填充,最终提取有意义的领域词。在城市管理投诉领域进行实验,结果表明,该方法能够准确有效地抽取领域词,宽松准确率比传统TFIDF方法提高了13%。(4)投诉文本中的领域词规范化表示研究。将城市管理投诉领域本体引入词语的规范化表示中,将词语的规范化表示转换为概念实例的映射问题,并通过计算词语之间的相似度实现概念实例的映射,同时将关键词映射到与其相似度很高的概念上,完成词语的规范化表示。实验表明,本文方法在保证较高准确率的情况下,同时解决了映射过程中的数据稀疏问题,取得了比较好的结果。(5)投诉文本中事件的统计分析。在上述研究的基础上,从时间、地点、事件对象三个维度对数据进行全方位分析。从时间维度分析,发现投诉量随着时间的增长而逐渐变多;从地点维度分析,发现城区投诉量多于郊区投诉量,所以要对郊区的居民加大网络投诉的宣传力度;综合三个维度进行分析,发现投诉事件多集中在3-10月,因此有关部门可以根据季节变化对不同的问题给予不同的重视。