基于词条之间关联关系的文档聚类

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lihai_feng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。
其他文献
整图是指图的邻接矩阵的特征值全为整数的图。研究了直径为4的整树。通过求某些特定的丢番图方程,构造了具有无穷多个这样的整树新类。
针对决策信息为区间直觉梯形模糊数(IVITFN)且属性间存在相互关联的多属性群决策(MAGDM)问题,提出了一种区间直觉梯形模糊几何加权Heronian平均算子(IVITFGWHM)的决策方法。基于IVI
目的:分析马来西亚华裔HIV感染者的一般资料和临床特点,旨在了解马来西亚华人因异笥性关系致感染的特点,并为我国HIV感染的防治提供借鉴;方法:对马来西亚马来亚大学医学中心1986年-1998年中的211例异
针对稀疏自适应匹配追踪(SAMP)算法中存在的运行速度慢、重建效果欠佳的问题,提出了一种新的自适应的子空间追踪算法(MASP)。采用SAMP算法中分段的思想,先对半减小预估稀疏度,再逐一增加,得到真实稀疏度后,再利用子空间追踪算法对原始信号进行重构。实验表明,相比于SAMP算法,该算法在相同观测数量的情况下,具有较快的运行时间和较好的重建效果,其中,在重构信噪比方面平均提高8.2%。
充血性心力衰竭(CHF)是最常见而又难治的心脏疾病,是器质性心脏病终末阶段,其患病率高,生存期短,死亡率一直居高不下,晚期CHF患者5年病死率达50%.我院自1999年1月-2002年12月
糖尿病肾病(以下简称DN)是糖尿病的并发症之一,是糖尿病患者的主要致死原因之一,但如能早期预防或治疗,则可逆转或延缓DN的发生、发展.近年来,本院对早期DN患者进行综合治疗,
为了保证智能手机敏感信息的安全性,设计实现了一种基于手机内置三轴加速度传感器的三维手势认证方案。在手势端点检测部分,在定性分析手势加速度信号能量分布特性的基础上,
基于格的相对零化子概念提出了BL-代数的弱相对零化子概念。讨论了弱相对零化子的基本性质,证明了弱相对零化子是BL-代数的滤子,给出了弱相对零化子的表示定理。进一步提出了弱零化子概念,给出了零化子等价于弱零化子的充要条件,刻画了BL-代数全体滤子集的结构。结论为今后研究BL-代数的弱广义相对零化子提供了基础。
我院自1994年以来,对62例髌骨骨折采用钢丝环扎加张力带内固定治疗,疗效满意,现报告如下。 临床资料 1 一般资料 本组62例,男48例,女14例;平均年龄47.3岁(19岁~74岁);骨折类
自从Warren和Marshall发现胃幽门螺杆菌(Helicobacter pylor, Hp)后,通过全世界20年的流行病学和临床对照研究,目前已证实Hp是慢性胃炎和消化性溃疡的主要病因,并与胃MALT淋