论文部分内容阅读
准确有效地集成海量Web信息,是Web信息动态聚合、市场情报分析、舆情分析、商业智能等分析型应用的重要基础.针对数据集成过程中不同实体指代同一实体的问题,利用搜索引擎返回的页面摘要信息,设计并实现了一种基于搜索引擎的同义实体识别算法FSE,并提出了一种基于同义实体识别的Web信息集成框架.在医院信息集成测试数据集上的实验结果表明,FSE算法效果优于基于Varient Dice、Varient Cosine、Varient Jaccard、Varient Overlap相似度计算的同义实体识别算法.