【摘 要】
:
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点
【基金项目】
:
国家自然科学基金,国家高技术研究发展计划(863计划)
论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.
其他文献
网格中应用程序的运行需要获取一些满足特定条件的网格资源.文章提出了一种网格环境下动态资源的表示方法-矩阵表示法,同时研究了矩阵表示法下的资源的查找和更新的算法.该算
勿庸置疑,2009年将成为中国PC市场最艰难的一年.IDC预计2009年中国PC市场销售量为4,061万台左右,增长率仅为3%.其中台式机下滑尤为明显,IDC预计2009年台式机销售量为2,480万台
文章提出了一种并行视频服务的连接接入控制CAC(Connections Admission Control)算法.用网络分解的方法分析了系统存储和传输节点上视频数据传输延时,并通过对RTP连接进行接
这是篇迟到的测评。几个月前,就有朋友提醒我关注一下松下DMP-BD60。可惜,商借样机是个繁琐的过程,尤其是大品牌旗下作为"陪衬"出现的"小产品"。
面向对象软件测试已成为软件工程领域的一个重要研究课题.目前已提出的回归测试策略大都是针对结构化程序的,对面向对象软件的回归测试策略研究得很少.文章在分析面向对象程
本文介绍了机械振动分析中常用的时域波形和频谱的基本特点,以轴承损伤和机械松动导致的振动故障为例,详细阐述了时域波形和频谱在不同故障形态中表现出的基本特征,并结合故
文章基于SIP协议,提出了一个PSTN小型语音网关的设计与实现方案,使IP网络上的SIP UA可以与PSTN的电话进行语音互通.同时,对网关的安全性进行了探讨与实现.
“在这个行业寒冬的季节,也是市场秩序打乱的时机,对于长城来说,正是发挥长城综合实力的时候,也是拉近与竞争对手距离的绝好机会。”在谈及目前席卷全球的金融风暴时,长城计算机总
对我国职业排球俱乐部的竞争力进行分析研究的管理经济学或企业经济学的基本理论框架是:首先,在"企业家精神"关于我国职业排球俱乐部文化的创新理念指导下,形成"俱乐部组织"
本文介绍了蒸压釜的主要结构、使用特点,从其特殊的结构形式出发浅析了蒸压釜主要的损伤模式,结合实际情况指出不同损伤模式主要的发生部位和产生原因,并据此有针对性地探讨