论文部分内容阅读
在当前复杂的互联网服务环境下,服务供求双方双盲现象普遍存在。服务需求者对外部服务和相关领域知之甚少,难以准确全面地表达需求。而服务提供者所掌握的用户需求信息有限,因此难以准确恰当地提供服务。为解决以上问题,我们需要获取大量用户需求并进行综合分析,挖掘用户的需求模式,从而帮助用户进行模糊需求的匹配以及为商家提供潜在的用户需求。但目前在网络中,用户的需求来自异构的数据源,且需求表达具有多样性、不规范以及非结构化的特征。因此,基于碎片化的用户需求,通过知识抽取、知识融合以及知识挖掘工作从离散的数据中获取有价值的需求信息,将对当前服务供求市场具有重要意义。本文采用众包服务网站Free Lancer中的用户需求描述短文本对以上问题展开研究。首先通过实体关系抽取方法将每篇非结构化的文本构建成结构化的本体形式,然后通过知识融合方法将大规模需求本体融合成一个热度综合需求图谱。其中,由于用户的表达异构,我们采用基于元素和基于结构的对齐方法,并分别从字符串层面和语义层面将本体中的实体对齐;然后基于融合需求图谱,采用概率图模型挖掘本课题所定义的链路模式和簇状模式。为避免在庞大的需求图谱中直接进行图搜索,我们提出一种基于领域视角的模式挖掘方法,将大规模的需求图谱抽象压缩到领域知识空间。该过程我们通过领域术语抽取方法标识领域实体节点,并采用表示学习方法补全离散的领域知识间的关联。最后,我们基于以上研究成果,设计并开发了一个用户需求模式匹配工具,通过模式挖掘方法辅助用户进行需求文本的编写。互联网当中的用户的需求大多是模糊而嘈杂的,因为没有一种统一的表达规范,在此基础上进行的以上问题的研究十分困难。在实体关系抽取阶段,我们通过规则定义改善了现有NLP工具的不足;在图谱融合阶段,我们借助已有本体对齐方法的支撑,将各类方法进行综合和改进。对于需求模式挖掘,我们创新地提出一种基于领域视角的模式抽取方法,在多粒度空间下进行用户需求模式的挖掘。最后,本课题通过对比实验验证了所采用方法的有效性,并通过具体应用实例证明了本课题的研究价值与意义。