基于互信息的词聚类方法

来源 :2006年全国信息、电子与控制技术学术会议(IECT2006) | 被引量 : 0次 | 上传用户:bangliju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义。基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果。实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进。
其他文献
为了解决HFCs制冷剂由于温室效应所引起的环境问题,本文提出在小型商业冷柜中使用丙烷工质(R290)来代替R404A。搭建了SRL-CD2075HA低温冷柜的实验测试台,并对测试装置及实验过程进行了介绍。实验研究表明,在获得相同制冷效果的情况下,R290的耗电量相比于R404A减少13.8%,充灌量仅为R404A的41.7%,冷柜的降温速率较R404A有小幅提升,并且成本要低廉。最后对R290用于
动磁式直线振荡电机是线性压缩机的最关键组成部分,其效率高低将直接影响压缩机的整体性能。根据电磁学、力学和运动学的理论基础建立了动磁式直线振荡电机工作过程的理论计算模型,为电机设计及性能分析提供理论基础。通过电机空载实验研究了谐振弹簧的匹配和动子初始中心位置对电机性能的影响,实验表明谐振弹簧的刚度和电机动子质量匹配时,电机处于共振状态,耗功最小;永磁体中心的初始平衡位置偏离磁路的中心位置越大,电机运
根据应用方式把毛细管网供冷方式分为地面辐射供冷方式、吊顶辐射供冷方式,在此基础上通过模拟实验评价了各供冷方式的供冷能力,并分析了辐射供冷方式结合露点控制系统使用时其应用可行性。其研究结果如下;在一般冷负荷的情况下,地面辐射供冷方式和吊顶辐射供冷方式均能维持室内设计温度,并且不发生结露,但是在最大冷负荷的情况下,地面辐射供冷方式和吊顶辐射供冷方式的供冷能力不充足,并且辐射板的表面发生结露,由此可知,
为满足移动制冷的需求和仅有直流供电环境下的制冷需求,研究和开发了基于稀土永磁无刷直流压缩机及其控制器,该压缩机具有效率高,机械特性好,调速范围宽且调节性能好,免维护,启动快,可靠性好,低噪声,用材省,无干扰等显著特点,符合节能环保的时代要求,该控制器具有起动平稳可靠,冲击小,升压电路设计使开关损耗减少到最低,效率随之提高。该型压缩机与控制器已批量生产。
城市污水处理厂是污水资源、污泥资源的集中地,将污水热能回用与污泥资源化利用在污水厂内就地结合是实现资源综合利用的有效途径。通过将再生水源热泵技术同时应用到污水厂污泥厌氧消化流程及厂内建筑的制冷供暖,提出了污水处理厂新资源、能源综合利用系统。再生水源热泵回收污水处理厂外排再生水所含低温余热,将其提升后满足污泥高温厌氧消化及冬季建筑物供暖要求,同时厌氧消化工艺产出沼气,可用作污水处理过程动力;被吸取热
根据梅山矿业公司尾矿综合利用的要求,设计了一种新型尾矿浓缩器用作尾矿的浓缩脱水。该尾矿浓缩器由旋流器和高频振动筛组成,具有分级效率高、适应性强、能耗低、耐磨损等优点。通过在现场的运行数据表明:新型尾矿浓缩器能够将尾矿中粗颗粒有效的分离出来,其分级效率达到了83%,且最终筛上物浓度达到80%,产率达到23%。每年可以产出23万t粗砂用于水泥添加剂,大大缓解了尾矿库的压力,具有良好的推广前景。
湿式自磨机与水力旋流器一段闭路磨砂流程的成功应用,进一步证实该流程在简化工艺流程和厂房配置、节省基建投资、降低加工成本、提高劳动生产率等方面的重要作用,充分体现出其科技含量,并与磨矿分级开创一条新的途径。
利用PTT纤维具有抗污性和良好弹性等特点,在圣东尼无缝针织机上开发内衣产品,设计试验评价了它的服用性能,并与棉制内衣产品的性能作了对比,研究表明PTT纤维作为无缝内衣的原料并不完美,但若化纤厂家能生产差别化的PTT纤维,则能进一步改进它的热湿舒适性,这样就可在内衣尤其是无缝内衣领域得到广泛应用。
本文研究了2,3-环氧丙基三甲基氯化铵(ETA)与壳聚糖(CTS)的接枝反应,得出了理想的反应条件如下:反应温度为75℃反应时间为6小时,壳聚糖/ETA为1/4(摩尔比),并研究了壳聚糖接枝物用在针叶木浆和阔叶木浆中对纤维的增强作用。通过试验对其增强机理进行了探讨,结果表明此接枝壳聚糖共聚物有良好的增强作用。
基于Markov状态的变步长功率控制是一种自适应功率控制,这种功率控制策略是根据功率控制命令的“历史”,将功率控制过程划分为Markov状态。本文在研究基于Markov状态的变步长功率控制的基础上,分析了信道衰落步长的概率密度分布,选取可能性最大的衰落步长作为步长集,并提出了一种确定Markov状态和步长对应关系的算法。最后仿真验证了该算法,得出采用该算法确定的Markov状态和步长的组合能够较好