【摘 要】
:
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解
【基金项目】
:
国家自然科学基金资助项目(60841003), 国家火炬计划资助项目(2004EB33006)
论文部分内容阅读
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUS
其他文献
目的:观察三参肾愈汤治疗早期糖尿病肾病的临床疗效。方法:将56例早期糖尿病肾病患者随机分成对照组与观察组各28例,对照组予以西医常规治疗,观察组在西医常规治疗的基础上,加用三
针对数字近景摄影测量中多摄像机与多个待匹配点处于同一平面内的特殊情况,分析了利用外极线约束的传统匹配方法匹配错误的原因,并提出了一种改进的多图人工标记点匹配方法。该方法利用基于外极线约束的传统匹配方法确定初始匹配关系,并根据图像上标记物轮廓计算出标记物空间法向,然后利用法向过滤准则剔除错误的匹配关系。实验结果表明,该方法能够有效地剔除利用外极线约束的传统匹配方法中错误的匹配关系,提高了匹配准确度。
慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)是临床常见的呼吸系统疾病,是指以不完全可逆气流受限为基本特点的肺部异常炎症反应,病情常呈进行性加重趋势
<正>慢性盆腔炎为妇科常见的慢性疾病,多由急性盆腔炎治疗不彻底或体质虚弱、病情迁延所致;发作较为频繁,给妇女生活质量、身心健康及工作带来严重影响[1]。目前临床治疗主要
提出了一个基于EPON的双向数字CATV网络的QoS构架实现机制,使用基于效用的动态QoS分级组播技术和H.264压缩编码技术来实现VOD的动态带宽分配,保证VOD业务带宽的需求,实现网络资源的高效使用。仿真实验结果显示它比ADSL2+和DOCSIS3.0具有更高的性能价格比。
慢性宫颈炎是妇科疾病中的一种常见病、多发病,该病多因异物刺激、病原体感染等引起,患者常有白带异常、不规则阴道流血、小腹坠痛、腰骶疼痛等症状,严重者可发展为宫颈癌,因
核覆盖算法是一种性能优秀的分类算法,但在拒识点处理方面存在不足。对核覆盖算法的构造过程进行了分析,修改了算法中覆盖半径的选取原则,对拒识样本引入隶属度函数,将算法推广为模糊核覆盖算法。讨论了孤立覆盖对分类器的影响,对覆盖数进行精简,降低计算量。通过实验验证改进算法的性能,并与其他模糊分类方法进行对比。将模糊核覆盖算法应用于垃圾邮件过滤,实验结果表明过滤器的性能得到了有效提高。
为了验证文献中提出的一种基于Logistic强混沌映射和陈氏超混沌系统的图像加密算法的安全性,对其进行了安全性分析,提出了适用于任意大小加密图像的已知明文攻击方法和选择明文攻击方法。同时,指出了原加密算法不安全的根本原因,并给出了提高其安全性的若干建议。
根据无线传感器网络中虚拟骨干节点极易失效的问题,建立了一个具有容错能力的连通支配集。首先提出了一种分布式连通支配集构造算法DACDS;然后在这个算法基础上,根据一般构造容错支配集的规则,提出了容错算法kCDS;最后根据该算法的缺点,对其作了一个改进,并对kCDS和改进kCDS算法进行了仿真。仿真结果表明,改进kCDS算法具有更好的性能。
提出了一种新的基于双线性对的门限秘密分享方案,并对其正确性、安全性和性能进行了分析讨论;该方案将分享者私钥计算和秘密分发过程分离,秘密份额可以重新利用,具有更好的性能,更适合实际应用。