基于长度递减与串频统计的文本切分算法

来源 :情报学报 | 被引量 : 0次 | 上传用户:xinhua9966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。
其他文献
介绍了具有原子级分辨率的扫描隧道显微镜(STM)的工作原理及其相对于传统的电子束加工所具有的技术优势,阐述了STM在纳米加工中的应用和需要解决的技术难题.
二氧化钛(TiO2)是响应三甲胺(TMA)气体的最佳金属氧化物半导体材料.为保持TiO2基旁热式气敏器件具有较高灵敏度、热稳定性和较低器件空气阻值(Ra),用X射线衍射和参数测试等方
目的探讨夫精宫腔内人工授精(AIH-IUI)中精液取出到处理的时间即放置时间(C-SW)对临床妊娠率的影响。方法选择2017年8月—2018年11月的142个AIH-IUI自然周期,根据精液处理前
归纳总结了锑掺杂二氧化锡(ATO)的导电机理。晶格的氧缺位、5价Sb杂质在SnO2禁带形成施主能级并向导带提供n型载流子是ATO导电的两种主要机理。从材料的电导率公式出发,定性
本文根据对世界重点高校“知识管理”课程建设的调查结果,采用定量和定性相结合的方法探讨该课程建设的有关重要问题及规律,深入分析了课程的教学模式、开设专业、课程内容、教
本文探讨一个基于C/S的新一代智能化、个性化搜索引擎。整个搜索引擎分为客户端和服务器端两大部分。在客户端,智能代理Agent在个性化模型数据库的支持下产生个性化的检索要求,
本文在对网络结构挖掘的两种典型算法(HITS算法和PageRank算法)进行比较分析的基础上,将PageRank算法应用到大规模引文网络中。对由236517篇SCI文章构成的引文网络,计算得到每一
目的 探讨氟哌噻吨美利曲辛片应用于脑梗死伴焦虑症患者中的疗效。方法 选择2016年1月—2017年12月我院收治的脑梗死伴焦虑症患者56例,以随机数字表法将其分为对照组与研究组
目的比较Foleys导尿管球囊扩张宫颈及催产素促宫颈成熟在足月妊娠引产中的应用效果。方法选取我院收治的足月妊娠孕妇100例,随机分为对照组及观察组,各50例。对照组应用传统