论文部分内容阅读
现如今人们习惯通过网络获取信息,但是互联网返回的网页数据通常比较杂乱,用户需要自己花费时间和精力对繁多冗余的信息进行判断,并不能直接得到准确的答案,而煤矿行业的知识更是分布散列,细小繁多,难以快速查找。基于知识图谱的智能问答系统可以通过解析用户的问题,捕捉用户意图,在知识库中搜索出最为准确的答案直接返回给用户。本课题的主要研究内容包括:(1)知识库构建:使用Scrapy爬取下载煤矿知识网站上的文件获取数据源,然后将文件进行格式转换,再通过LTP对文件内容进行分词等预处理,利用基于词的Bi LSTM-CRF命名实体识别模型与基于Bi GRU融合Attention机制的关系抽取模型,从标注好的文本中数据得到<实体1,关系,实体2>的结构化数据,将其存储至Neo4j图形数据库中,构成煤矿知识库。(2)问答实现:首先爬取常见的问句,获得用户常问的问题类型,构造问句模板,然后预处理问句集,使用TF-IDF提取问句的特征词,构成特征词词典,再将问句集分别使用支持向量机和朴素贝叶斯行训练,得到问句分类器,并对两种分类器的训练结果进行测试与分析,最终选择效果更好的朴素贝叶斯分类器对用户在问答系统中输入的问句,进行类别判断,匹配问题模板,得到完整的Cypher查询语句,之后在煤矿知识库中搜索答案,将答案填充到回答模板返回给用户。(3)系统前后端交互:本文使用Django框架实现问答系统与煤矿知识库的连接和数据交互,使用Bootstrap和JS实现前端界面,最终得到完整的问答系统。本课题的研究可以为煤矿领域的专业人员提高获取信息的效率,减少时间上的浪费,对于其他领域知识库问答的研究也有重要的借鉴价值。