论文部分内容阅读
问答对的规模和质量是影响基于常问问题集问答系统性能的重要因素,目前所使用的问答对库一般是人工构建的,往往需要耗费大量的时间和人力物力。针对此问题,提出一种基于改进贝叶斯的领域问答对自动获取方法。该方法将HTML页面解析成DOM树,选择DOM树的节点信息和结构信息作为问答对的分类特征,结合受限领域知识库,利用改进贝叶斯分类模型,从HTML页面中自动获取问答对并过滤出领域问答对。实验结果表明,该方法效果显著。