论文部分内容阅读
随着互联网信息量的飞速增长,快速准确的从浩瀚的数据海洋中找到需要的信息显得非常重要。搜索引擎为互联网用户提供了便捷的查询服务,随后出现的一系列Wiki系统提供了对某些特定事物或问题的全面准确性的描述,从一定程度上满足了用户的查询需求。特别对于企业或者组织来说,拥有一个专属的Wiki系统能够更好的组织和管理与其相关的信息,从而提高工作效率,减小管理成本,推动企业的发展。 然而Wiki系统的内容一般为人工手动编辑,这是一个耗时耗力的过程。在我们之前的工作中,进行了基于组织内部网络的企业Wiki辅助生成的研究,通过对实体的识别,文本片段的抽取与选择,自动的为相关实体构造了一个基本的描述。本文在之前工作的基础上,研究如何基于实体的基本的描述,即先验知识为实体从互联网上采集到更多的相关信息,从而利用这些互联网信息对先验知识进行补充,形成更加丰富的Wiki描述。 针对这个问题,我们提出了基于先验知识的企业Wiki信息采集方法。首先根据给定的实体以及先验知识构造了与实体相关的关键词集合,利用现有的搜索引擎从互联网上采集与实体相关的网页。接着,对采集到的信息进行分析与过滤,由于互联网上信息质量良莠不齐,且存在着大量的重名现象,所以需要对信息做相关性、可信性以及补充性的分析。在这个过程中,我们对比了计算文本相关性的一系列方法,提出了基于语义树的文本片段间的语义相似度计算方法;在可信性方面,给出了基于黑白名单的可信性网页过滤算法;通过计算文本相似性,抽取出能够补充先验知识的文本片段。最后,我们介绍了系统的迭代增长特性,展示了系统的完整性。 实验结果表明,我们的系统能够为实体从互联网上采集到补充先验知识的文字片段。虽然从结果上看到,依旧有一些文字片段的补充性不强或者是包含了与实体重名的其他实体的文字片段,但是我们得到的补充性片段的比例已经在可接受的范围。基于这些补充性片段,可以通过人工筛选获得最终的实体描述。