汉语分词索引字数与分词效率的对比研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:cykic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对汉语分词词典中双字哈希索引机制未能充分利用索引分词,而分词效率又明显优于首字哈希索引机制的问题,在充分分析汉语构词特点的基础上,提出了基于三字哈希索引的分词词典机制,并通过将字串的三态标记与下一索引指针的乘积作为哈希值的链地址法,简化了词典结构,节省了内存空间。理论分析和真实语料仿真均证明了三字哈希索引机制与不同字数的其他索引机制相比,具有更好的分词效率。
其他文献
2008年以来,在合肥市委市政府的高度重视下,合肥市城管局精心组织,积极推动,龙泉山垃圾处理场填埋气发电项目3台发电机组已于去年底相继建成发电,
7月28日,宜昌市夷陵区星翔联合社、洋红农贸、晓曦红果业等3家柑桔企业与俄罗斯斯坦食品股份有限公司签订了柑桔出口贸易备忘录。该区委副书记贾立出席签约仪式并讲话,区人大常
为增加腰果出口产值,越南计划对腰果进行深加工,而不只是出口原料或初加工产品。越南已连续10年成为世界上腰果出口最多的国家,占世界腰果出口总量的50%。2016年前10个月,越南出
国际在线报道(驻巴西记者衣鹭霞):2005年至06年,美国曾多次向中国捐赠“医疗垃圾”事件被曝光后,在国内引起轩然大波。其实,这样的事件不仅发生在中国,也发生在南美大国三西。近日,大
临江垃圾焚烧发电厂二期工程目前奠基,总投资3.2亿元,有望于明年3月份建成投产,建成后日处理垃圾能力达1200吨,市区有望实现生活垃圾全部无害化处理。临江垃圾焚烧发电厂由浙江伟
文气,是作者内蕴之气在文中所表现出来的一种美的境界。它是充分的感情酝酿和事理条化的结果,其核心是一个“情”字。形式上,强调主观与客观高度统一的意识流程,具有“常行于
学校体育是全民体育的基础,实施全民健身计划,重点在学校。体育教师在围绕“增强体质”、传授“三基”的教学过程中,更重要的是根据学生体育心理状态的特点,培养学生的体育意
本文汇集古汉语中常见的反训词,以词为目,分别列举古文献实例,援引古注及当代学者的注解加以训释,以求正反二义的确诂。在分析的本义及其引伸、转化、假借中,结合探求每个词
党的十一届三中全会以来,许多五、六十年代大学毕业、路途坎坷的学者专家焕发青春,辛勤工作、致力于学术研究,成果斐然。我校中文系汪廷煌副教授在写作理论与应用方面的研究