基于排序集成的哈萨克语固定短语抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：baiseshiren

【摘要】

：

短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分，对短语标注、辞典编撰等自然语言处理

【作者】

：

桑海岩古丽拉·阿东别克孙瑞娜陈莉

【机构】

：

新疆大学信息科学与工程学院, 国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地,新疆财经大学统计信息学院

【出处】

：

计算机工程与应用

【发表日期】

：

2004年期

【关键词】

：

自然语言处理固定短语排序集成互信息似然比 C-value算法 natural language processing fixed phrases ran

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分，对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语，词形变化丰富，这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法，把固定短语抽取看作一个排序问题，使用C-value、互信息和log-likelihood进行抽取排序，并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明，与单独的抽取算法比较，该算法达到了更高的准确率。

其他文献

失眠

一梦折回何以焉，蟾光无赖扰清眠？半窗影入朦胧境，别样情生寂静天。

期刊

诗歌文学作品现代文学《失眠》

吟月

火云流尽自清寒，钩月悄声转玉盘。一生不计亏盈事，愿洒清辉山水间。

期刊

诗歌文学作品现代文学《吟月》

西子晚晴

树影湖光山倒挂，扁舟粉彩映红霞，黄昏西子晚晴美，夕照余晖水绽花。

期刊