切换导航
文档转换
企业服务
Action
Another action
Something else here
Separated link
One more separated link
vip购买
不 限
期刊论文
硕博论文
会议论文
报 纸
英文论文
全文
主题
作者
摘要
关键词
搜索
您的位置
首页
期刊论文
一种基于后缀数组的无词典分词方法
一种基于后缀数组的无词典分词方法
来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:pickbaobei
【摘 要】
:
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地
【作 者】
:
张长利
赫枫龄
左万利
【机 构】
:
吉林大学计算机科学与技术学院
【出 处】
:
吉林大学学报:理学版
【发表日期】
:
2004年4期
【关键词】
:
无词典分词
数组
文档
散列表
计算速度
算法
中文信息处理
法能
频度
实验
Chinese information processing
automati
【基金项目】
:
国家自然科学基金
下载到本地 , 更方便阅读
下载此文
赞助VIP
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
其他文献
表格信息在主题爬行中的作用
采用计算向量之间相似度的方法,通过实验分析验证了表格信息在主题爬行中的重要性.研究结果表明,与整个网页相比,表格所能提供的与用户相关的信息占整个网页信息总量的80%以上,因而
期刊
主题爬行
链接
TF—IDF
相似度
focused crawling
URL
TF-IDF
similarity
一维Conway元胞自动机的涌现计算
给出四参数Conway元胞自动机的翻转规则及演化结果. 通过增加相邻元胞数量发现, r=1的规则中没有Wolfram第四等级; r≥2中存在Wolfram第四等级.
期刊
Conway元胞自动机
涌现计算
翻转规则
演化规则
Wolfram第四等级
cellular automata
Conway's cellular
与本文相关的学术论文