基于论坛语料的未登录词自动识别新方法

来源 :西南大学 | 被引量 : 0次 | 上传用户：guodianwangxg

【摘要】

：

未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法：首先利用网络蜘蛛下载论坛网页；然

【作者】

：

都菁

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2010年期

【关键词】

：

未登录词中文分词网络蜘蛛语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法：首先利用网络蜘蛛下载论坛网页；然后对该语料库进行周期性的更新以随时保持语料的新鲜度,以构建一个具备高时效性的语料库;接下来对语料库进行分词,具体是先将Mutual Information函数和Duplicated Combination Frequency函数线性叠加构造出新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数的首字母结合而成),再用MD函数对语料库进行分词产生候选词表；最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到原始核心词库中,以便在下一次分词过程中可以一次性识别出该未登录词。中文分词与一般英文分词不同,中文的语言构成和使用习惯使得中文分词比英文分词困难很多。在该领域先后产生三种传统的中文分词算法：基于字符串查找的机械匹配算法；基于理解的算法和基于统计的算法。三种算法对于未登录词的识别都存在不同程度的问题：机械匹配算法从根本上就无法实现未登录词的识别：理解算法由于算法复杂、实现难度大,实际开发和应用并不广泛；统计算法在一定程度上可以解决部分未登录词,一度成为比较流行的算法,但是现有的统计算法仍然出现较多误判和无法判定的情况。总的说来,基于统计的算法是一个实际应用中相对可行的一种方法,因此本文提出一种改进的统计算法对未登录词进行识别。具体策略如下：第一,本文首次将网络论坛——天涯论坛,引入未登录词识别研究中,利用网络蜘蛛下载论坛网页。第二,通过预处理网页构建语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料。第三,将Mutual Information函数和Duplicated Combination Frequency函数线性结合构造出新统计量MD,运用该MD函数对语料库进行分词产生候选词表。第四,通过对函数的反复训练,选定较优的阈值,对比候选词表与原始词表发现未登录词。最后根据这种思想设计测试方案,搭建测试环境。通过对新词召回率和分词准确率两个指标,证明本文设计的未登录词自动识别新方法是可行的。

其他文献

基于光子映射的虚拟场景全局光照算法研究

在计算机的虚拟场景中，全局光照明很好的为用户提供了物体的各种重要信息。例如，物体大小，表面颜色，阴影部分以及物体相互之间的位置关系等，在很大程度上提高了计算机生成图像的真

学位

全局光照虚拟场景光子映射光线跟踪光子图多叉平衡树

基于学习对象的网络学习内容管理方法的研究

随着网络、多媒体技术的快速发展,网络学习正逐渐成为重要的研究和应用领域,与之相适应的网络教育资源建设也日益受到人们的重视。但目前网络教育资源库大多处于孤立分散状态

学位

学习对象网络课程XML模式

虚拟群体模拟中的大规模场景简化技术

大规模群体动画一直是虚拟现实技术研究的热点之一。群体动画技术广泛应用于游戏、电影动漫、建筑规划以及火灾等灾难现场模拟与辅助指挥。通过群体行为的真实模拟,可以辅助

学位

群体动画实时渲染点采样层次细节模型层次实例化

在线手写体数学公式的分割与识别算法研究

模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写

学位

模式识别数学语言字段分割机器学习特征抽取

基于Chord的P4P网络搜索模型研究

P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这

学位

P4P网络ChordiTracker三层结构

中文搜索引擎的个性化服务研究

1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展

学位

搜索引擎中文分词用户兴趣模型个性化模型Web信息挖掘

数字电视互动应用页面标记语言规范研究与应用

随着数字电视相关技术的不断发展和完善以及数字化产品和信息服务在家庭中的不断渗透和日益融合，数字电视互动应用也日趋丰富和多样。数字电视互动应用和服务有着巨大的市场需

学位

页面标记语言数字电视互动应用中间件解析器点播系统

网格资源监控技术的研究

网格中资源具有地理位置分布、运行平台异构、种类繁多的特性,它们能动态的加入或退出网格环境。因此,资源的发现和监控问题成为网格技术发展中必须要解决的问题,也成为研究

学位

网格网格资源监控移动Agent

基于策略的柔性工作流访问控制关键技术研究

访问控制是提高工作流安全性的重要机制。本文研究了当前基于角色和任务的工作流访问控制模型的应用背景,分析与总结了工作流访问控制需求要点,针对现有的访问控制机制在工作

学位

安全策略访问控制工作流管理系统授权代理

移动网格中基于层次模型的移动节点预测

网格计算自从第一次被用到科学和商业领域到现在已经取得了长足的进步。相信网格计算的下一个阶段是将网格服务提供给资源受限的设备,例如手持设备、PDA、智能手机、传感器等

学位

移动网格GridLite移动节点位置信息服务NS2

基于论坛语料的未登录词自动识别新方法

与本文相关的学术论文