一种新颖的词聚类算法

来源 :中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会 | 被引量 : 0次 | 上传用户:minlu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.
其他文献
电网基础设施建设是城市建设的基础部分,一个城市的发展与电网规划密切相关,电网规划与城市规划的衔接是城市发展所必须的。本文分析了电网规划和城市规划的现状与存在的问题
在电力系统中,对于配电线路有明确的划分,其中10kV配电线路最为常见,常用于社会城乡居民的日常生活,属于使用率最高的配电线路分类。而大量的10kV配电线路,所带来的是较多的
"互联网+"时代对于人们的日常生活起到了巨大的影响作用,人们的生活更加便利化,互联网无形之间也实现了经济的共享新趋势和管理上的新主张。人力资源是企业管理的重要内容,"
针对10k V配电线路故障和故障处理,在分析故障类型、产生原因及处理要求的基础上,根据湖南地区10k V配电线路实际情况,提出了线路故障处理中自动化技术具体应用方法,并通过实
鉴于直流系统在整个变电站中的重要性,但是其又经常出现这样或导致的故障,所以只有强化对其原因的分析,才能采取针对性的措施予以优化和完善,才能促进运维服务质量的提升。
在社会经济不断发展的同时,人们对电力系统运行具有越来越高的可靠性需求,再加上现代人普遍重视社会经济的可持续发展,因此开始广泛地将新的能源引进到电力系统中,从而控制化
本文通过分析IPV4协议的基本概念和应用特点,并结合内网穿越技术,对穿越技术进一步进行了分析。在此基础上设计了简易的内网穿越模型——结合ST[]NT协议的客户端和服务器端对内
为满足大学生快速寄送和提取快递的需求,顺应移动互联网发展的热潮,推动校园互动社区的建设。本文针对大学生活中存在的收寄快递不方便的问题,结合易班社区建设工作,以易班移
现在我国电网和电压的等级日益提升,同时电站区域面积的扩张和电站容量继续变强,导线里的分布电容与高频开关中电容抗干扰方面继续增强,造成电容太大形成对继电保护造成误动
现代信息技术和电子技术的高速发展,推动了科学技术和网络信息技术的飞跃,机械制造业在科技浪潮的作用下也有了很大的进步。作为我国先进机械制造技术的重要一部分,融合自动