基于时间线的历史知识库自动构建方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chaircat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的大热,机器学习、自然语言处理等技术都有了长足的进步,问答系统的研究也引起了各界学者的关注。人们开始好奇是否可以使用问答系统像人一样进行高考题的解答,并在不同的学科上进行试验。现有的问答系统大都依赖于一个专用的知识库,知识库作为一种知识管理的工具,能对海量的数据进行管理和组织,对于解决“知识匮乏”和“海量信息”的对峙问题有非常重要的现实指导意义。一个组织良好、知识覆盖全面的知识库对于其对应的问答系统来说是意义匪浅的。然而现有的知识库大都针对开放领域,针对特定任务的知识库往往需要针对性地进行构建。本课题主要面向我国高考文综试题的历史简答题部分,利用机器学习、自然语言处理等技术构建一个面向历史领域的知识库。结合历史知识的特点以及历史简答题中题目特性,时间信息在历史领域中具有比较大的实用性,因此提出将该历史知识库基于时间线进行构建。在知识库的构建过程中,收集了百度百科、维基百科等资源作为知识库的知识来源。在对维基百科和历史词条的网页解析过程中,提出使用基于文字密度和文字范围的方法获取网页中历史知识部分的内容,主要针对解析不同网页的网页标签所带来的时间消耗问题。收集到的维基百科中包含所有类别的中文词条,需要分类得到维基百科中历史相关的词条,提出了使用基于卷积神经网络的分类模型对维基百科的词条进行分类,用于提高历史知识库的知识质量。对历史知识中的时间信息进行分析,将时间信息分为显式的时间信息和隐式的时间信息。将时间信息的抽取作为时间实体识别任务进行解决,采用条件随机场和深度学习相结合的方法获取知识中的时间信息。在得到历史知识中的时间信息之后,按照获得的时间信息对知识库进行组织,将整个知识库按照时间的先后顺序组织为一个基于时间线的形式。同时为了便于知识库中知识的查看,构建了知识库展示和检索系统,该知识库一共包含了约12万5千个词条,并将该知识库应用于实际历史高考简答题问答系统的解题过程中。
其他文献
对采矿权价格进行评估,其实质是对既定矿权地未来开发收益的估算.在通常情况下,采矿权项目均基本完成了可行性研究或预可行性研究,有相对可靠的工程、市场、生产、经营成本和
顾客是企业得以生存的关键,更好地服务于顾客是企业得以持续发展的根本.今天各个层次的成功企业都有一个共同点,即它们都着重强调以顾客为中心并大力进行市场营销.然而仅仅靠
随着高校课程建设改革深入发展,构建自主性学习的网络教学课程体系已成为提高教师教学质量和培养学生自主学习能力的重要手段。文章对南京医科大学寄生虫网络课程平台的课程
<中共中央国务院关于进一步加强和改进大学生思想政治教育的意见>指出,"学校教育要坚持育人为本、德育为先,把人才培养作为根本任务,把思想政治教育摆在首位",要"以大学生全
研究了半导体纳米线/超导体复合结构中的马约拉纳费米子的存在情况,提出一种用相干光学谱探测马约拉纳费米子的全光学方法.将一束较强的泵浦激光和一束较弱的探测激光同时作
改革开放以来,我国公共基础设施的建设逐渐进入飞速发展的阶段,在传统的公共基础设施建设融资中,政府以背书担保等方式承担了主要的融资功能,但是随着公共基础设施建设投入的
背景妊娠滋养细胞肿瘤(gestational trophoblastic neoplasms,GTN)是一类罕见的妇科恶性肿瘤,全身化疗是其主要的治疗方法,根据国际妇产科联盟(International Federation of