论文部分内容阅读
随着民航事业近几年的飞速发展,如何进一步完善航空安全,成为航空各部门关注的焦点。民航安全信息的收集、分析、传播则是改善航空安全的最有效手段之一。世界各国和地区的民航界都非常重视民航安全信息的收集、研究和分析。
航空安全报告主要是民航从业人员包括飞行员、管制员、乘务员、机务维修人员、保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航空安全系统中存在的及潜在的矛盾和不足之处提交的不安全事件和安全隐患报告。航空安全报告的自动分类在提高航空安全,减少安全隐患上有十分重要的作用。
论文主要研究文本分类技术及其在航空安全报告自动分类中的应用。在对航空安全报告分类的研究现状和目前存在的问题进行系统和深入的探讨研究的基础上,本文主要做了以下工作:使用全二分最大匹配法对航空安全报告进行分词预处理;基于分词预处理结果,使用基于切分单元的最大匹配法生成航空安全词典;使用向量空间模型表示航空安全报告;采用互信息方法对高维向量空间模型进行特征提取;分别采用基于关联规则的自动分类,K近邻分类,贝叶斯分类等方法对航空安全报告数据进行自动分类;论文最后给出了分别采用三种不同分类方法的分类结果对比。
实验证明,基于关联规则的自动分类的准确率高于K近邻分类,贝叶斯分类方法,领域词典的引入有助于提高分类准确率。在引入领域词典后基于关联的分类准确率大约为70%,贝叶斯分类方法对于小样本数据有很好的准确率,K近邻分类效果最差,不适于进行航空安全报告的分类。研究表明,借助文本分类的方法和技术对航空安全报告数据进行分析,可以找出民航安全中存在的隐患规律,提高民航安全管理的科学性,具有一定的应用前景。