论文部分内容阅读
提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段;然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段,使得包含同一种关系的文档片段聚集在同一个片段簇;最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽