基于文本频谱的中文文本聚类方法

来源 :四川大学学报:自然科学版 | 被引量 : 0次 | 上传用户:voyage36
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了利用文本频谱进行中文文本轮廓分析的表征方式.该方法基于不同时代、体裁和领域的文本在文字使用方面具有偏好性的假说,以文本中单个字符为单位,通过文本频谱刻画方法统计所有单字符在文本中出现的频率,并使用刻画出的文本频谱对文本进行表征;利用频谱比对分析技术,可计算出任意文本间的距离,并以此距离为基础进行聚类分析.进一步的实验证实了该方法的有效性.
其他文献
设A是一个域上的有限维结合代数.作者证明了代数A的整体维数gl.dimA与A的导出范畴在Keller意义下的A-整体维数gl.dimADb(A)相等.
加速器驱动次临界系统(ADS)在生产能量、增殖核燃料和嬗变高放废物等方面具有良好的应用前景,在国际上受到广泛的重视.在ADS系统的设计中,外源中子相对裂变中子的重要性是影响外源
针对当前基于医学PACS研究存在的不足,对PACS的每个具体功能进行了设计和实现,特别是实现了DICOM图像在互联网上的查询、传输和显示.对系统中重要的关键部分做了分析探讨,实现了一个完整的PACS和图像的三维显示、分割、配准等功能.在Mitk的基础上进行的二次开发,能有效地缩短PACS的开发周期,并使得系统具有更高的运行效率、更大的灵活性及可扩展性.
为了解决容灾系统中单个备份服务器带来的性能瓶颈,本文提出了一种多点网络异地数据备份恢复方法MRDBR.该方法实时监控逻辑卷的数据变化,将监控到的数据变化记录通过海量缓存发
垂茎异黄精是中国特有的附生植物,目前仅在四川贡嘎山海螺沟发现其分布.在海螺沟的青石板沟对其个体和植物群落特征,重点对其着生树木及其微环境特征进行了调查.共搜寻到27株树木
采用第一性原理基于密度泛函平面波赝势方法来详细研究了SrZrO3和ZnCr2O4的结构,力学和电子性质.分别通过分析压力下SrZrO3的能带宽度和弹性模量,我们预测SrZrO3分别在30GPa和20
无线传感器网络信誉建模多采用如信誉的集成、衰减、老化等间接机制进行信誉更新,然而对信誉直接更新的研究少有探讨.本文根据无线传感器网络不同任务的划分并依据统计学理论中
本实验室先前通过酵母双杂交在油菜中获得一个未知基因(BnRCH),NCBI保守区域查寻表明BnRCH蛋白合有一个RINGv(RING-variant)结构域,该结构参与多种抗逆途径.为初步探索BnRCH的作用,通
本研究从植物基因在动物细胞异源表达的角度入手,采用外源基因稳定转染的方法,向人胚胎肾细胞HEK 293A和人宫颈癌细胞Hela导入了BnRCH基因,获得了HEK 293A和Hela细胞的稳定
为了解决无线传感器网络中的热区问题并延长网络生命周期,该文基于对LEACH,EEUC分簇算法的研究,提出了一种非均匀分层的wSN分簇路由算法ULRA.该算法的思想是以基站为圆心将网络分