论文部分内容阅读
随着人工智能的大热,机器学习、自然语言处理等技术都有了长足的进步,问答系统的研究也引起了各界学者的关注。人们开始好奇是否可以使用问答系统像人一样进行高考题的解答,并在不同的学科上进行试验。现有的问答系统大都依赖于一个专用的知识库,知识库作为一种知识管理的工具,能对海量的数据进行管理和组织,对于解决“知识匮乏”和“海量信息”的对峙问题有非常重要的现实指导意义。一个组织良好、知识覆盖全面的知识库对于其对应的问答系统来说是意义匪浅的。然而现有的知识库大都针对开放领域,针对特定任务的知识库往往需要针对性地进行构建。本课题主要面向我国高考文综试题的历史简答题部分,利用机器学习、自然语言处理等技术构建一个面向历史领域的知识库。结合历史知识的特点以及历史简答题中题目特性,时间信息在历史领域中具有比较大的实用性,因此提出将该历史知识库基于时间线进行构建。在知识库的构建过程中,收集了百度百科、维基百科等资源作为知识库的知识来源。在对维基百科和历史词条的网页解析过程中,提出使用基于文字密度和文字范围的方法获取网页中历史知识部分的内容,主要针对解析不同网页的网页标签所带来的时间消耗问题。收集到的维基百科中包含所有类别的中文词条,需要分类得到维基百科中历史相关的词条,提出了使用基于卷积神经网络的分类模型对维基百科的词条进行分类,用于提高历史知识库的知识质量。对历史知识中的时间信息进行分析,将时间信息分为显式的时间信息和隐式的时间信息。将时间信息的抽取作为时间实体识别任务进行解决,采用条件随机场和深度学习相结合的方法获取知识中的时间信息。在得到历史知识中的时间信息之后,按照获得的时间信息对知识库进行组织,将整个知识库按照时间的先后顺序组织为一个基于时间线的形式。同时为了便于知识库中知识的查看,构建了知识库展示和检索系统,该知识库一共包含了约12万5千个词条,并将该知识库应用于实际历史高考简答题问答系统的解题过程中。