论文部分内容阅读
从古老的《永乐大典》到世界权威的《大英百科全书》,再到如今随网络覆盖全球的“维基百科”,人类长期以来从未停止过知识的整理和知识库的构建。随着计算机技术的发展,人们开始关注构建可供机器阅读和推理的语义知识库,以实现人工智能的远大理想。近年来,利用语义万维网技术并基于在线百科数据构建语义知识库的工作愈发受到重视。英语领域的语义知识库自动化构建工作稳步发展,相关商业化的应用也在不断涌现,但是中文方面的相关研究和工作还基本处于起步阶段。中文在线百科(如百度百科和互动百科)的数据量早已比肩英文维基百科,本课题正是利用如此丰富的源数据,进行中文语义知识库的构建研究和实现。我们利用启发式规则、中文分词、关联规则挖掘等技术完成了语义数据的抽取、清理和挖掘的基础工作。将这些从异构数据源抽取的语义数据进行融合(也即数据匹配)则是本课题的重点。具体来说,我们提出了一个半监督学习的算法来迭代挖掘匹配规则并找出等价语义信息。这种方法极大减轻了人工设计匹配规则和相似度计算标准的代价,并仍能保持很高的精确度。最后我们简单介绍如何通过链接数据标准,发布和浏览这个整合互联的中文知识库(Zhishi.me)。