基于先验知识的企业Wiki信息采集方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lioutao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息量的飞速增长,快速准确的从浩瀚的数据海洋中找到需要的信息显得非常重要。搜索引擎为互联网用户提供了便捷的查询服务,随后出现的一系列Wiki系统提供了对某些特定事物或问题的全面准确性的描述,从一定程度上满足了用户的查询需求。特别对于企业或者组织来说,拥有一个专属的Wiki系统能够更好的组织和管理与其相关的信息,从而提高工作效率,减小管理成本,推动企业的发展。  然而Wiki系统的内容一般为人工手动编辑,这是一个耗时耗力的过程。在我们之前的工作中,进行了基于组织内部网络的企业Wiki辅助生成的研究,通过对实体的识别,文本片段的抽取与选择,自动的为相关实体构造了一个基本的描述。本文在之前工作的基础上,研究如何基于实体的基本的描述,即先验知识为实体从互联网上采集到更多的相关信息,从而利用这些互联网信息对先验知识进行补充,形成更加丰富的Wiki描述。  针对这个问题,我们提出了基于先验知识的企业Wiki信息采集方法。首先根据给定的实体以及先验知识构造了与实体相关的关键词集合,利用现有的搜索引擎从互联网上采集与实体相关的网页。接着,对采集到的信息进行分析与过滤,由于互联网上信息质量良莠不齐,且存在着大量的重名现象,所以需要对信息做相关性、可信性以及补充性的分析。在这个过程中,我们对比了计算文本相关性的一系列方法,提出了基于语义树的文本片段间的语义相似度计算方法;在可信性方面,给出了基于黑白名单的可信性网页过滤算法;通过计算文本相似性,抽取出能够补充先验知识的文本片段。最后,我们介绍了系统的迭代增长特性,展示了系统的完整性。  实验结果表明,我们的系统能够为实体从互联网上采集到补充先验知识的文字片段。虽然从结果上看到,依旧有一些文字片段的补充性不强或者是包含了与实体重名的其他实体的文字片段,但是我们得到的补充性片段的比例已经在可接受的范围。基于这些补充性片段,可以通过人工筛选获得最终的实体描述。
其他文献
随着多核时代的到来,共享内存的多线程编程开始普及。多个线程在并发访问共享内存时会存在内存一致性问题。Java语言通过直接在语言层定义内存模型来解决该问题。Java内存模型
利用数据挖掘技术可以从海量数据中获取有价值的知识模式。广泛存在的软件源码作为一种特殊的数据形式,在其上应用数据挖掘技术进行源码形式的信息挖掘,已经成为一个新颖而重要
随着科学技术的发展和管理能力的提升,软件和服务都处在一个快速发展的黄金时期,但是这些变化带来了新的功能、方便和复杂性。随着系统复杂性的增长,用于开发系统的过程也随
无线传感器网络日益成为信息感知的重要手段之一,有着丰富的应用支撑和广阔的发展前景。为了对网络中的数据进行有效和高效的管理,一般将无线传感器网络建模为一个分布式数据库
现实世界中,很多实际问题都更适合于用“图”进行建模。在图挖掘领域,对象相似度作为一个重要课题,被广泛应用在链接预测、欺诈检测、协同过滤、近邻查询等众多实际问题中。在传
最短路径问题是图论中的经典问题,它不仅广泛应用于早期的简单网络,而且在涉及到复杂网络的各个领域中也得到了多方面的应用,例如:在一个给定负载量的交通网络中选择从出发地到
随着企业信息化建设的发展,信息化系统的安全性也日益得到关注。权限管理作为保证系统安全性的一个重要机制,已经成为研究的热点之一。漏洞共享平台是发布安全漏洞信息的平台
掌握全国的污水处理情况,对于政府决策者制定节能减排目标和相关政策,污水厂投资建设,运营管理指导等至关重要。为帮助决策者和管理者掌握污水处理厂建设和运行状况,了解其运行规
随着计算机和网络技术的不断发展,XML技术的应用也不断扩展。该技术不仅可以用于银行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进行查
随着WLANs的发展和普及,其用户数量日益增多,而网络资源十分有限。为了给用户提供更好的网络接入服务,优化用户接入机制成为近年来的一个研究热点。本课题的研究目标是:优化用