基于后缀数组的分词技术

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:xuq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的识别率,建立待分词内容的后缀数组,然后计算其公共前缀共同出现的次数,采用阈值对其进行过滤筛选出候选词语,实验结果表明,该方法在新词识别方面有一定的优势。
其他文献
为了解决数据库加密后查询效率低的问题,针对数据库加密技术的实际应用,提出了一些解决方案。通过对数值型密文数据使用标志位,为字符型数据创建外存索引文本,缩小了查询范围
<正>One benefit of SOA is from service composition which combines existing services to form a new valued-added service in the form of business process.This also
先简述了WEB攻击的种类,然后着重从攻击者角度,分别从Web程序代码、文件目录权限、系统漏洞、web验证漏洞、CGI参数、SQL注入、跨站点跟踪来浅析高校WEB站点的安全。
<正>Many consulting firms and research institutions have started providing consultancy services for service innovations.However,academic research has not kept p
HITS算法是WEB结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法。实验证明改进后的算法提
为探索和量化研究海上交通事故影响因素,结合894份沿海船舶事故数据,提取时间、海洋环境、船舶、人员特征,以及船舶动态作为客观影响因素,构建结构方程模型,辨别海上交通事故
根据技能组卷特点提出围绕技能点构建组卷约束模型,使用组合分布策略实现技能题库自动组卷。设计了技能点组卷矩阵约束模型,重点探讨组合分布组卷策略实现的三个关键环节:参数验
Shell是用户访问操作系统的接口。Shell开发在WindowsCE操作系统开发中占据一定的重要性。对WindowsCEShell进行了概述,并通过建立Shell模型,讲述如何自定制WindowsCEShell和定
在数据分析软件中,随着数据量的增加,导致数据分析的难度增加,制约了软件系统性能的进一步提高。在分析了以往数据压缩算法的基础上,提出了一种改进的数据压缩算法,通过该算
当有很多用户请求某一个特定服务提供者(SP)提供的服务,可能造成排队等候现象,已有技术普遍使用先来先服务(FCFS)的原则对服务请求(SQ)进行排队。提出了一种基于语义匹配的优先级排队