一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:yjsngmmsnjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种快速的多模式串匹配算法,并且将它应用在实时汉语文本分类系统的文本向量化中.本文对比了匹配算法和传统的分词方法这两种文本向量化方法,衡量了使用这两种方法生成向量的相似度和所需时间,并且分析了产生差异的原因.实验结果说明使用多模式串匹配算法能够极大的缩短生成文本向量所需时间,并且使用向量的夹角余弦值衡量两种方法生成的向量有平均97.4%的相似度.
其他文献
冬天气候寒冷,人们很容易感受外邪、风寒,引起感冒、鼻炎等上呼吸道感染疾病。现介绍5种抗寒防病的方法:1.常喝白开水冬天气候干燥,人体极易缺水,常喝白开水,不但能保证机体
本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的
会议
基于网页上下文分析的图片检索是指利用HTML文档源代码,通过分析文档结构自动获取图片的说明,并以此创建图片索引的一种图片检索方法.在本篇论文中我们提出了一种能更加有效
会议
“散乱空中千年雪,膝胧物上一层纱,纵看晴景如看雾,不是春天亦见花”。这是我国唐代著名大诗人白居易,由于纵酒过度,致使晚年眼疾严重,备受病患之苦,而在《病中二首》中的自
传统品牌企业对网销市场执著追捧,源于其对市场可观前景及未来发展趋势的把握。面对不断变化的线上市场环境,众多品牌企业如何选择适合自己的发展路径?又如何突破多渠道运营下的发展困局?    随着网购市场的进一步规范和迅猛发展,李宁、飞利浦、安踏、真维斯等不少传统品牌相继进入B2C市场。几年下来,这些传统品牌在电子商务市场中有得有失,并没有出现像当当、京东等这样的大企业。在2008年和2009年金融危机爆
本文以参加文本检索会议中有关跨语言信息检索(Cross-Language Information Retrieval,CLIR)任务的评价作为研究背景,提出了一个面向英汉的CLIR系统的实现框架,并由此引出有
会议
本文提出了一种语义聚类和扩展的新方法,称为有指导的统计隐含语义标引(SPLSI)算法.该算法能基于双语语料,通过机器学习来自动进行语义聚类,生成词间相似度矩阵.和以前的算法
会议
本文总结了全科护士从事静脉输液时患者不配合的表现,并从护理伦理学的角度对其原因进行分析,最后提出对策,指出护士应强化护理伦理学知识的学习,正确掌握伦理学原则并在输液过程
在基于大规模的双语句对语料库的英文辅助写作系统中,我们采用了一种改进编辑距离的句子相似度计算方法,即对以往的编辑距离算法进行适当的调整,考虑了更多的汉语结构信息,使
鲁人社字[2010]632号各市人力资源和社会保障局、财政局:根据《山东省人民政府关于开展新型农村社会养老保险试点的实施意见》(鲁政发[2009]131号)精神,结 Lu Ren She Zi [2