Lucene．net中文分词算法分析

来源 :郑州大学学报：理学版 | 被引量 : 0次 | 上传用户：fz1122

【摘要】

：

Lucene．net实现中文分词依靠的是Analyzer类，但通过分析其内置的KeywordAnalyzer，StandardAnalyzer，StopAnalyzer，SimpleAnalyzer，WhitespaceAnalyzer5个分词类发现，它们几乎都是按

【作者】

：

周拴龙

【机构】

：

郑州大学信息管理系

【出处】

：

郑州大学学报：理学版

【发表日期】

：

2011年3期

【关键词】

：

LUCENE 中文分词 Analyzer类 Lucene Chinese word segment Class Analyzer

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Lucene．net实现中文分词依靠的是Analyzer类，但通过分析其内置的KeywordAnalyzer，StandardAnalyzer，StopAnalyzer，SimpleAnalyzer，WhitespaceAnalyzer5个分词类发现，它们几乎都是按单字的标准进行切分的，为更好处理中文信息，必须引用外部独立开发的中文分词包．在对ChineseAnalyzer，CJKAnalyzer和IKAnalyzer这3种典型的中文分词包分别测试后，发现采用字典分词以及正反双向搜索方法的IKAnalyz

其他文献

区分用户长短期兴趣的IBCF改进算法

协同过滤算法已被成功应用于许多领域，但遇到了可扩展性和精度低等问题，目前提出了许多改进算法，但它们均忽视了用户长短期兴趣对推荐的不同影响．针对这个问题，介绍了一种改进的长

期刊

基于资源的协同过滤用户长短期兴趣兴趣识别方法兴趣变化item-based collaborative filtering user＇s long an

一族孤子方程的Hamilton结构及Liouville可积性

给出一个2×2谱问题及其相应的孤子方程,并利用此孤子族的Lenard算子对的性质,证明了该系统是具有Bi-Hamilton结构的广义Hamilton系统,进一步给出其Liouville可积性的证

期刊

孤子方程逆辛算子Bi-Hamilton结构LIOUVILLE可积soliton equation symplectic operator Bi-Ha

一类极大平面图4-着色布尔方程组

对极大平面图的4-着色布尔方程组{Fd1^1（x1,x2,…,xn）=1 Fd2^2（x1,x2,…,xn）=1 …… F

期刊

平面图极大平面图4-着色布尔方程组planar ganphs maximal planar graph 4-coloring Boolean eq

一类疯狂映射的拓扑传递性

疯狂动力系统是一种非常复杂的动力系统．为了研究其Devaney混沌情况，就必须先了解它的拓扑传递情况．在N=2以及纤维映射，f0，f1均为旋转条件下，给出了参数a0,a1取不同值时，疯狂动力系

期刊

疯狂动力系统疯狂映射拓扑传递性crazy dynamic system crazy map topological transitive proper

一种基于矩阵变换的层次聚类算法

针对K-means算法需预先确定聚类数的缺陷，提出一种基于矩阵变换的层次聚类（NHC）算法，通过对矩阵行列的排序、变换，把矩阵分块成子矩阵聚类，以熵作为评价聚类结果标准．实验表明，NHC算

期刊

层次聚类矩阵变换熵相似度hierarchical clustering matrix transformation entropy similar

一种基于页面时间的排序算法

在传统排序算法的基础上,提出了增加页面时间因素的页面时间排序算法,使用户能更快地得到满意的查询结果.通过与传统相关度算法的分析比较,证实了此方法的可行性,该算法使得

期刊

查准率无应答网页页面时间排序算法precision ratio no response to the website pagetime rank al

FAQ问答系统句子相似度计算

句子相似度计算是FAQ问答系统的核心问题,提出一种改进的基于多重信息的方法,即结合关键词信息、句子结构信息和语义信息的句子相似度计算方法,并用实例验证了方法的可行性.

期刊

句子相似度常问问题集问答系统知网sentence similarity FAQ question answering system HowNet

本体匹配的形式化描述

本体匹配问题虽然已经得到了广泛的关注,但并没有对本体匹配问题描述专门进行研究.尝试建立一个本体匹配的形式化描述,将本体表示为有向标记图,使本体之间的匹配转化为有向标

期刊

本体匹配约束优化问题有向标记图ontology matching constraint optimization problem directed l

修理设备可更换且修理延迟的三状态可修系统的可靠性分析

研究了修理有延迟且修理设备可更换的两个三状态部件和一个修理设备组成的冷贮备可修系统．假定两个部件的工作时间服从指数分布，部件发生故障后的延迟修理时间和修理时间均服从

期刊

三状态修理延迟冷贮备3-state delay repair cold standby

单车型动态车队调度问题的时空分解模型构造

构造了问题的动态规划模型，详细地研究了模型中总收益函数的凹函数特性，进而设计线性逼近函数，构造问题的时空分解模型，从而达到将问题时空分解为多个单时段单节点问题的目的．

期刊

动态车队调度收益函数时空分解dynamic fleet scheduling recourse function spatial temporal d

Lucene．net中文分词算法分析

与本文相关的学术论文