基于改进的正向最大匹配中文分词算法研究

来源 :贵州大学学报:自然科学版 | 被引量 : 0次 | 上传用户:BarDy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端。针对此问题提出了根据中文词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法,并用互信息统计来消除交集型歧义。最后,通过实验对算法进行了分词和验证,结果表明改进的算法与一般正向最大匹配算法相比,中文分词
其他文献
对Little Red病毒的特点及其基本工作方式进行分析,并给出了清除该病毒的程序。
对于拉格朗日中值定理中ζ的取值范围,就某一类函数对其进行了估计,并由此得到了P-级数Σn=1 1/n^p(0〈P〈1)发散速度的估计。
在经济全球化背景下,印度充分发挥其现代服务业的竞争优势,并在全球化的国际分工中获得先机,带动印度经济快速发展。但是,以IT产业为主导的服务业有较高的就业门槛,与印度大众教育
对于两种群、扩散的合作系统,利用微分不等式,讨论了正概周期解的存在性,全局吸引性,唯一性及其在壳扰动下的稳定性。
“探究式教学”就是教师引导学生对知识积累与整合、观察与感受、思考与领悟、应用与拓展、发展与创新等方面学会探究,并在教学实践中发展学生的读图能力、观察能力、想象思辩
我们生活在社会主义市场经济社会,生产、交换、分配、消费是当代社会生活的基本内容。我们的教育应该使学生初步了解与之相关的知识,同时对他们进行财富道德品质及市场经济意
软件产业是印度自由化改革的优先领域,软件人才队伍建设是印度软件产业发展的基础性工作。一方面,印度高度重视能力训练和素质提高,通过革新教育模式,致力于课程开发,打造了
【正】 阑尾炎术后切口感染较常见,发生率约2.8%~20%,穿孔性阑尾炎为78%。感染后治疗棘手,延长住院时间,增加患者痛苦及费用。为此笔者分析我院1992年1月~1996年12月间632例阑尾切
电视腹腔镜手术是九十年代外科学的巨大变革。自1987年法国人首创腹腔镜胆囊切除以来,短短几年中就已发展到腹部各种脏器的切除,深受患者的好评。我科自1995年8月份起开展腹
周山隧道为双向六车道分离式结构型式,最大埋深70 m。隧道工程区为黄土地层,隧道出口段70m范围埋深在5-18m,属超浅埋黄土隧道。隧道开挖跨度达16.12 m,施工过程中容易产生坍