改进的OPTICS算法及其在文本聚类中的应用

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:minisnake1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。
其他文献
煤粉颗粒温度、环境气氛和惯性沉积是电站四角切圆煤粉燃烧锅炉炉内受热面积灰与结渣的主要外在因素 ,以此为依据采用超细化煤粉燃烧技术对炉内受热面积灰和结渣的影响进行了
本文在符号学的基础上对地域文化符号概念进行定义主要从平面视觉设计的角度探索如何创建地域文化符号、如何阐释地域文化符号的意义以及如何实现地域文化符号在商业平面广告
本文选择美国有线电视新闻网(Cable News Net,以下简称CNN)对西藏3.14事件(2008年3月14日至2011年3月31日)的报道为分析样本,结合框架理论与批判性话语分析理论对文本进行分
为了准确测量导光板模具上微结构圆孔的直径尺寸,开发了一套基于机器视觉技术的微结构圆锥底孔在位测量系统。运用HALCON机器视觉软件对测量系统进行标定,通过混合噪声滤波、
介绍了膨胀石墨的制备方法、结构、性能及其应用,并对其发展趋势作了展望.在制备方法上重点介绍了化学氧化法、电化学氧化法和一种氧化插层与膨化过程可同时进行的特殊方法—
通过临床观察、病理学剖检、细菌分离培养和生化试验鉴定,对水律蛇大肠杆菌病进行了诊断;通过药敏试验筛选针对蛇大肠埃希菌的敏感药物;将筛选出的敏感药物应用于临床治疗。
现代汽车上使用了各式各样的电控单元(ECUs)。SmartSAR内核是基于AUTOSAR标准的汽车电子基础软件,具有以下特点:标准化、可移植和代码可重用。汽车电子软件的复杂度越来越高,
自从进入二十一世纪之后,我国的经济得到不断发展,再加上人们认识到环境保护的重要性,园林绿化事业已经收到越来越多人的重视。我国现阶段的园林绿化事业,仍旧不能和国外发达
无人机影像拼接技术在战场侦察、应急保障中具有很高的应用价值。本文就无人机影像自动拼接技术进行了深入的研究和探讨,主要工作和创新点如下:1.研究了基于特征的无人机影像
字幕翻译在影视剧的跨文化交流中起到了重要的作用,但由于文化差异的存在,编剧与观众群之间存在的文化缺省往往会造成目的语观众理解上的困难。对此,以《绝望的主妇》为个案,