基于关联规则的自动构词算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:heyifeizhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自
其他文献
<正> 档案是一种重要的信息资源,它具有信息的一般属性:可扩散性、可传输性、可分享性等。随着人类文明的不断发展,档案的载体形式从玉石、竹木简牍、纸张、胶片、发展到今天
<正> 1999年是湖北省档案局确定的全省档案工作“优质服务年”。东风汽车公司档案处据此决定在全公司档案系统组织开展“优质服务年”活动,旨在进一步增强服务意识,转变服务
普通高校成人教育是相对年轻的事业,且工作面广、量大,所以管理的难度是相当大的。多年来大家一直在努力探索如何提高管理水平和工作效率的办法。通过实践表明,做好文书档案工作
<正> 液晶材料研究是中国兵器工业第204研究所(西安近代化学研究所)军民两用高新技术的代表。为加速科技成果转化,促进该材料尽快实现产业化,该所与西安高科集团高华电气实业
基于(n,n)-阈值的灰度图像分存方案利用恢复函数和误差扩散技术将一张秘密灰度图像分存到n张有意义的灰度分存图像中。所提方案选择n张有意义的灰度图像作为分存图像,以增强秘密图像的隐蔽性,达到保护图像信息安全的目的;采用误差扩散技术,可以产生具有良好视觉质量的分存图像。所生成的分存图像没有像素膨胀,其大小与秘密图像相等。此外,方案的重构过程简单快速,而且是无损的。实验结果和理论分析表明,所提方案能为
特殊载体档案主要有磁盘、磁带、照片、证书、奖状、奖杯、锦旗等(笔者理解还应包含不易装订的纸质载体档案,即过去所说的“实物档案”),兵挡宇(1997)48号文件规定了特殊载体档
随着全球信息化的飞速发展,互联网违法犯罪不断增长。电子数据取证技术作为一个新兴的研究领域,将计算机调查和分析技术应用于犯罪侦查,并收集适合呈现在法庭上的电子证据。本文结合电子数据取证鉴定实务的需求,在分析国内外现有的电子数据取证标准的基础上,结合最新发布的国际标准ISO/IEC 27037,提出电子数据取证标准体系的整体框架,并分析了在数据加密、云计算和大数据背景下电子数据取证标准面临的挑战。
高校档案工作者的能力是高校档案工作质量的重要因素。高校档案工作者的能力主要由学科专业能力、档案业务能力和社会交往能力构成,三者是有机相融的整体,缺一不可。
<正> 随着我国社会主义市场经济逐步建立和完善,实现了从计划经济管理模式向市场经济管理模式的转变,这种转变对档案工作既是机遇,也是挑战。而对激烈的市场竞争,档案工作如
从国外引进先进技术和设备是加速我国现代化建设、提高企业生产能力、产品更新换代和提高经济效益的有效途径。为加快引进设备的安装、调试,使其发挥出经济效益,将引进设备的技