对整词二分自动分词机制的改进

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:zhdj600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快.
其他文献
"台北101大楼"新建工程为一项由政府与民间企业携手打造之大型BOT建筑开发案,建筑设计为塔、裙楼各一栋,塔楼为地上101层之超高层大楼,其规划用途主要为金融机构办公室,裙楼为地上六层之购物商场,地下室共五层并连通全基地,其主要用途为商场及停车场,本工程座落于台北市信义计划区,基地形状略呈正方形,其长寛各约175M,基地面积约30,277M2,建筑总楼地版面积约374,220M2,为本工程之建筑及
有限元方法已经在结构分析,基础工程分析与计算中获得广泛的应用.但是在基础沉降分析中仍然处于探索和研究之中.其应用范围和程度远不及上部结构广泛和深入.多年来,很多专家、学者都对此做过贡献,至今还没有完全解决.我国的地基基础规范中要求:在同一整体大面积基础上建有多栋高层和低层建筑;应该按照上部结构、基础与地基的共同作用进行变形计算.因此必须用有限元方法分析地基与上部结构整体共同作用.本文主要探索有限元
在钢筋混凝土结构中,如铁路桥梁、公路桥梁、吊车梁等,长期承受重复荷载的作用,从而导致结构在低于静载强度下发生疲劳破损或失效,所以必须在这些钢筋混凝土结构设计中考虑重复荷载所引起的疲劳问题.在我国,现役的工程结构由于设计缺陷、环境不利影响、使用功能的改变及施工质量问题,其疲劳强度可能不满足现行规范要求.当服役结构的疲劳预测寿命小于结构的期望服役年限时,需要对其进行疲劳加固.碳纤维布(CarbonFi
随着Web2.0理念日益深入人心,博客作为一种网络日志的形式,成为网络上的主要应用之一.而主要出现在博客、网络相册等系统上的,依靠大量用户使用自由选择的词汇作为标签(Tag)来对事物进行标记的人工分类的"大众分类法"也逐渐成为研究热点。本文将焦点集中在中文博客标签上,着重考查其统计性质、齐夫定律和复杂网络性质,从多方面初步了解中文博客标签的性质和特点。
本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文
作为语义立根之本的大规模语义知识库的研究与建设,是当今计算语言学的重要发展方向之一.国内外现有语义知识库对概念的语用变体以及与概念变体相关的各种微观语义关系普遍关注不够,这种现状成了制约提高语义知识表示颗粒精细度与语义计算准确度的瓶颈。本文阐述概念及其变体之间的关系,主张在词网建构中应注重概念变体的属性描写,并提出描写的具体技术方案。
本文提出了一种依据图的"添加有选择性"来预测后续论文最有可能引用哪些现有的文章(热文)的方法,依据论文与参考文献间的内容相关性,利用主成分分析的方法对热文进行内容分析,进而达到对后续论文中的研究热点进行预测。实验证明这种方法是有效的。
蒙古文机器翻译研究,经过了几个阶段的,不同翻译方法的探索过程。在汉蒙机器翻译方面曾经做过基于规则的和基于实例的研究,并取得一定成果。近年也进行基于统计的汉蒙机器翻译的探索;在英蒙机器翻译方面进行过基于规则的研究和基于模板的研究;同时在蒙日、日蒙、蒙汉机器翻译方面也进行了一些探索性的研究。目前以蒙古语为目标语言的机器翻译研究相对多些,而以蒙古语言为源语言的很少.总结和归纳蒙古语机器翻译研究的经验教训
本文引入一种基于配价模式的依存句法分析方法,并使用XDG形式化体系和XDK软件包进行了汉语句法分析实验。在本文提出的配价模式中,不仅包括补足语,也包括说明语,不仅考虑了价语的支配能力,也考虑了其被支配的能力。
本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。