论文部分内容阅读
针对热点发现中文本聚类的表示模型缺乏语义性、维度过大、存在同义词多义词问题以及用于选取热点的热度评价模型的单一性等缺点,引入了金融领域本体库,利用本体库中同义词集的组织方式,用概念代替传统文本表示模型中的部分词形特征项,保留具有较大类别贡献度的词形特征;替换过程中,查找本体库的上下位词集,确定被代替特征项在上下文背景中的明确概念,消除歧义;替换之后,合并属于同一概念的特征项,缩小了特征维度;用基于概念的特征值计算公式调整被替换及合并过的特征项的权值,形成基于概念和词形的混合文本表示模型,用于文本聚类中的深度语义挖掘;利用构建的多维度热度评价模型度量聚类结果的热度值,根据热度值降序排行,发现热点。本文提出基于混合文本表示模型的文本聚类方法,将本体系统与基于传统词形的向量空间模型结合,实现了词形到概念的转换,解决了同义词合并、消除歧义等问题,建立了基于语义的混合向量空间模型,将模型用于基于划分的均值聚类算法中;依据热度属性,构建了热度评价模型,多维度评选热点。论文阐述了构建金融领域本体系统的具体方法;对基于概念和词形的混合文本表示模型的生成算法做了详细论述,叙述了基于混合模型的文本聚类方法的实现步骤;从发布者角度构建多维度的热度评价模型,并描述了其构建思路;对基于语义混合模型的文本聚类方法与基于传统词形和基于全概念的文本表示的聚类进行实验比较分析,结果表明基于语义的混合模型的聚类方法有较高的纯净度和F值,证明了其有效性和优越性,将模拟数据转换为基于概念和词形的文本表示模型并进行聚类,用构建的热度评价模型和基于新闻类中文本数的常用热度评价指标做聚类结果热度值的比较实验,以实际媒体发布的热点为评判依据,实验证明用所构建的热度评价模型评估热点新闻有较高的准确度和重合率。以上两点的改进有助于提高热点发现质量,便于网民对金融热点新闻的快速定位与浏览,准确获取信息,辅助决策。