论文部分内容阅读
随着互联网的发展,网络空间已成为消费者发表企业口碑信息的主要场所,同时也是企业收集消费者的反馈信息,发现产品缺陷与服务盲区的重要场所。然而面对海量的网络信息,仅仅依靠传统的人工搜集、整理和分析的方式已经不能满足现实口碑监测工作的需要。因此,建立一个智能化的网络口碑监测平台对于企业改善自身素质、增强竞争力具有重要的意义。本文依托于网络口碑监测平台的建设,结合平台的功能需求,设计并实现了一个智能化的网络口碑分析系统。该系统采用Web文本挖掘技术,实现对海量口碑文本的自动提取、筛选、识别和分类。本文的工作主要包括:1)分析比较现有的网页解析技术,采取基于XQuery模板的方式,实现对网页文本元数据的精确抽取;2)分析比较现有的信息过滤技术,采用基于支持向量机的文本二值分类器,滤除平台无需关注的信息,保证后续数据分析的准确性;3)采用多模式匹配算法,结合预设的产品匹配规则,快速识别出口碑文本涉及的产品;4)通过“一对多法”构建支持向量机文本多分类器,对口碑文本按预设的分类体系进行自动分类。本文最后对系统进行了测试,测试结果表明系统达到了预期的设计要求。目前,该系统已成功应用于网络口碑风险监测平台。