基于领域辞典的航空安全报告自动分类研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:ruyudeishui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着民航事业近几年的飞速发展,如何进一步完善航空安全,成为航空各部门关注的焦点。民航安全信息的收集、分析、传播则是改善航空安全的最有效手段之一。世界各国和地区的民航界都非常重视民航安全信息的收集、研究和分析。 航空安全报告主要是民航从业人员包括飞行员、管制员、乘务员、机务维修人员、保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航空安全系统中存在的及潜在的矛盾和不足之处提交的不安全事件和安全隐患报告。航空安全报告的自动分类在提高航空安全,减少安全隐患上有十分重要的作用。 论文主要研究文本分类技术及其在航空安全报告自动分类中的应用。在对航空安全报告分类的研究现状和目前存在的问题进行系统和深入的探讨研究的基础上,本文主要做了以下工作:使用全二分最大匹配法对航空安全报告进行分词预处理;基于分词预处理结果,使用基于切分单元的最大匹配法生成航空安全词典;使用向量空间模型表示航空安全报告;采用互信息方法对高维向量空间模型进行特征提取;分别采用基于关联规则的自动分类,K近邻分类,贝叶斯分类等方法对航空安全报告数据进行自动分类;论文最后给出了分别采用三种不同分类方法的分类结果对比。 实验证明,基于关联规则的自动分类的准确率高于K近邻分类,贝叶斯分类方法,领域词典的引入有助于提高分类准确率。在引入领域词典后基于关联的分类准确率大约为70%,贝叶斯分类方法对于小样本数据有很好的准确率,K近邻分类效果最差,不适于进行航空安全报告的分类。研究表明,借助文本分类的方法和技术对航空安全报告数据进行分析,可以找出民航安全中存在的隐患规律,提高民航安全管理的科学性,具有一定的应用前景。
其他文献
GML是开放地理信息系统协会(OpenGIS Consortium,简称OGC)制定的、基于XML的地理信息编码标准,用于空间数据在网络上的传输、存储和发布。它中立于任何厂商、任何平台,为地理
环绕智能是欧洲信息社会咨询组对未来信息社会提出的新构想。它是一种智能化、人性化的电子环境,周围被嵌入式计算设备包围着。但在这种环境中,人机交互的模式从传统的以计算
大量研究发现,在颅内血管的流体力学仿真模拟中,精确的血管数据对于实验结果非常关键,微小的数据差异可能产生很大的差距,因此如何有效地分割血管成为仿真研究过程中重要一环
随着Internet的飞速发展,WEB已经渗透到各行各业当中,从商业、银行、财政、娱乐、教育到政府机构,WEB应用对人们的日常生活、工作产生了深远的影响。WEB以其生动丰富的用户界
RTU(Remote Terminal Unit,远程终端单元)是构成SCADA(Supervise Control And Data Acquisition,数据采集与监控)系统的核心设备。它的作用是能对现场各种信号进行数据采集、数
数据清洗在数据挖掘中占有越来越重要的地位,相似重复记录的检测是数据清洗的核心任务。对于语义重复记录的检测,至今没有成熟的算法,本文首先利用本体在语义处理方面的优势,提出
手语是聋哑人使用的交际语言,通过手的形状、位置和方向的变化来表达特定的含义,是聋哑人群获得信息服务最重要最自然的途径。普适终端,即在任意地点、任意时间,以任意方式,为人们
随着大数据概念的提出,大数据迅速成为国内外学者研究的热点,主要研究方向包括大数据采集、大数据存储、大数据挖掘以及大数据可视化等。但对大数据可信度量方面的研究相对较