大规模汉语语料库中任意n的n—gram统计算法及知识获取方法

来源 :情报学报 | 被引量 : 0次 | 上传用户:gellycgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中
其他文献
本文介绍了"信息硬化"的概念,据此按照"一手信息"和"二手信息"划分了竞争情报源.分析了一手信息和二手信息的特性.以美国、日本竞争情报典型收集方法为佐证 ,说明了"信息硬化
<正> 在1993北京建筑博览会上展示了美国产的Jacuzzi Ciprea牌FRP水力按摩缸,表面层(聚甲基丙烯酸甲酯,厚度约4mm,真空吸塑成型),
森林资源的管护经营,指的是对森林资源进行保护、管理、培育以及经营,对促进森林资源可持续性发展,实施生态环境保护有着重要作用。然而以当前森林资源的管护经营现状来看,还
实现乡村振兴战略关键在于吸引人才,将人才引入农村,留在农村,人才队伍在乡村振兴战略中扮演着重要角色。但是,随着社会经济的不断发展,城市凭借较高的收入以及资源优势吸引
本研究从实证研究的角度,探讨小学高年级学生攻击行为与亲子依恋的现状及其关系,为小学高年级学生攻击行为的相关研究提供理论依据,提高学生心理健康综合素质的发展。本研究
现大学校园篮球逐渐呈现以小球为主,高强度快节奏的篮球主流,愈来愈需要队员拥有全面的身体素质和多变性技战术观念,则对教练和队员提出了更高的要求,那么针对如何提高高职院篮球
本文根据笔者出席今年6月InternetSociety在美国夏威夷召开的INET'95会时收集到的材料,客观地介绍了当前Internet的某些热点间题,包括Internet与全球信息高速公路的关系、网络安全问题、多媒体应用所带来的问题、CIDR和新一
本文首先概述了基于“推”模式网络信息服务的概念和特征,并将它与传统的SDI服务进行了比较。在分析Push技术的基础上,提出了“推”模式网络信息服务的作用机理。最后,还介绍了
[目的]构建产科危急症情景模拟教学案例,提高高职助产专业人才培养质量。[方法]结合助产士临床工作内容对助产学课程中产科常见危急疾病进行筛选,形成情景模拟教学案例咨询项