论文部分内容阅读
本论文对旅游个性化推荐进行了研究,对特定领域的非结构化自由文本进行领域概念的实例、属性和属性值的实体识别与抽取,构建了云南旅游本体知识库,为旅游用户在旅游论坛中提供个性化信息推荐。将领域实例、属性和属性值间实体识别与提取出来,对构建特定领域的本体知识库和进行后续的信息推荐具有实际意义。本文完成了以下几方面的工作:1.利用马尔科夫逻辑网对旅游领域的概念实例、属性和属性值几类实体间识别,包括语料预处理、特征的选择、格式转化等过程。利用一阶逻辑公式来表示区间特征、近长度关联特征以及远长度关联特征,并且把三种特征融合到马尔科夫逻辑网中对概念实例、属性和属性值在旅游领域进行命名实体识别。从实验结果可以看出,融合区间特征、近长度关联特征和远长度关联特征的马尔科夫逻辑网在中文旅游领域自由文本的概念实例、属性和属性值命名实体识别方面具有可行性,并且具有良好的抽取性能。2.绍了知识库五大构成要素构成的概念模型和Grunder提出的构建知识库五大准则。采用本体构建工具protege并且简要介绍,最后介绍了旅游本体知识库的设计过程,最终形成了一个旅游本体知识库。详细设计了旅游本体知识库中的概念实例、公里类、属性、属性值、约束条件和类结构。3.针对旅游用户面临严重的信息过载问题,提出一种基于游客信息的协同过滤帖子推荐方法。在分析知识库信息推荐的属性特点后,首先利用一个融合了用户评论行为的PageRank算法去判断各个用户的重要性,主要考虑各个用户之间的回复关系以及各个用户之间回复的时间关系。然后把PageRank得分高的用户作为聚类中心进行K-means聚类,再把聚类得到的用户与推荐系统使用者通过协同过滤算法计算相似度,并结合用户的PageRank得分,选择与用户相关度较高的信息作为推荐结果。