汉字关联性量化方法及其在文本相似性分析中的应用

来源 :计算机应用 | 被引量 : 4次 | 上传用户:df0225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。
其他文献
安徽淮河流域民间音乐丰富多彩,民间儿童歌曲是民间音乐的重要组成部分,主要论述了安徽淮河流域民间儿童歌曲的文化背景、题材分类以及儿童歌曲的音乐特征。
随着经济的发展,对会计人才的需要也在不断上升,培养出既能熟练掌握基础会计理论知识、财务管理知识,又能熟练运用财务软件进行会计实际操作的技能型人才是会计专业未来的人
首先介绍了利用API函数获取Windows和Linux桌面图形图像的方法,并对它们的位图数据进行了说明。根据桌面图形图像序列的特点,设计了一种基于网格的无损编码算法,并对该算法进行了分析。实验表明,该算法可以有效地压缩桌面图形图像序列,能够满足实际应用的需要。
期末自动转账功能的使用可以大大提高会计电算化工作的效率,但时这一功能的学习和掌握存在一定的难度。本文对会计电算化自动转账功能教学过程中出现的各种各样的问题进行了分
面向可编程的系统芯片(SOPC)中的实时操作系统(RTOS),在软/硬件任务统一管理的基础上,建立了一种软/硬件任务统一调度模型。然后分析了软/硬件任务间发生共享资源竞争的问题,深入研究了其内部运行机制,提出了一种基于记录型信号量和统一调度模型的软/硬件任务资源竞争解决方法(SHTRCR)。仿真实验表明,在相同条件下,采用本方法软/硬件任务截止时间的保证率高于无统一调度支持的软/硬件任务资源竞争方
稳步推进农业银行向商业化过渡刘铭贵从计划经济向市场经济转轨,逐步建立社会主义市场经济体制,已成为国民经济进一步发展的必然选择,而金融体制改革作为整个经济体制改革的先导
随着网络技术和现代信息技术的发展,口语软件被广泛应用于英语口语学习中,口语软件在口语学习中扮演什么样的角色、还有哪些进步的空间等相关问题引发了大量的思考和讨论。该
在30套成年男性腹部连续矢状断层体本上,胰体吴三角形、菱形和椭圆形;其最长前后径3.34±0.81cm,最长上下径3.41±0.68cm,主胰管主要位于胰体矢状面的前上部和中心部;胰体中段主胰管的内径为1.40&#17
在迁移工作流系统中,停靠站服务器是迁移实例的运行支撑平台,必须能够支持多种支撑服务和应用服务的集成,适应运行环境和应用需求的动态变化。基于面向服务的概念,提出了一个可扩展、可定制和可重配置的停靠站服务器结构模型,描述了模型的体系结构和内核结构,讨论了服务组件的集成框架和组织模式,以及应用服务的部署模式等,并结合微内核和组件技术给出了参考实现方案。
20世纪70年代末开始,中国农村地区进行了一场以下放政治权力、发展农村经济为主要目标的分权式改革,学术研究重心再次下沉,新时期农村基层干部队伍建设问题成为了学界的研究