基于论坛语料的未登录词自动识别新方法

来源 :西南大学 | 被引量 : 0次 | 上传用户:guodianwangxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然后对该语料库进行周期性的更新以随时保持语料的新鲜度,以构建一个具备高时效性的语料库;接下来对语料库进行分词,具体是先将Mutual Information函数和Duplicated Combination Frequency函数线性叠加构造出新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数的首字母结合而成),再用MD函数对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到原始核心词库中,以便在下一次分词过程中可以一次性识别出该未登录词。中文分词与一般英文分词不同,中文的语言构成和使用习惯使得中文分词比英文分词困难很多。在该领域先后产生三种传统的中文分词算法:基于字符串查找的机械匹配算法;基于理解的算法和基于统计的算法。三种算法对于未登录词的识别都存在不同程度的问题:机械匹配算法从根本上就无法实现未登录词的识别:理解算法由于算法复杂、实现难度大,实际开发和应用并不广泛;统计算法在一定程度上可以解决部分未登录词,一度成为比较流行的算法,但是现有的统计算法仍然出现较多误判和无法判定的情况。总的说来,基于统计的算法是一个实际应用中相对可行的一种方法,因此本文提出一种改进的统计算法对未登录词进行识别。具体策略如下:第一,本文首次将网络论坛——天涯论坛,引入未登录词识别研究中,利用网络蜘蛛下载论坛网页。第二,通过预处理网页构建语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料。第三,将Mutual Information函数和Duplicated Combination Frequency函数线性结合构造出新统计量MD,运用该MD函数对语料库进行分词产生候选词表。第四,通过对函数的反复训练,选定较优的阈值,对比候选词表与原始词表发现未登录词。最后根据这种思想设计测试方案,搭建测试环境。通过对新词召回率和分词准确率两个指标,证明本文设计的未登录词自动识别新方法是可行的。
其他文献
在计算机的虚拟场景中,全局光照明很好的为用户提供了物体的各种重要信息。例如,物体大小,表面颜色,阴影部分以及物体相互之间的位置关系等,在很大程度上提高了计算机生成图像的真
随着网络、多媒体技术的快速发展,网络学习正逐渐成为重要的研究和应用领域,与之相适应的网络教育资源建设也日益受到人们的重视。但目前网络教育资源库大多处于孤立分散状态
大规模群体动画一直是虚拟现实技术研究的热点之一。群体动画技术广泛应用于游戏、电影动漫、建筑规划以及火灾等灾难现场模拟与辅助指挥。通过群体行为的真实模拟,可以辅助
模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写
P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这
1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展
随着数字电视相关技术的不断发展和完善以及数字化产品和信息服务在家庭中的不断渗透和日益融合,数字电视互动应用也日趋丰富和多样。数字电视互动应用和服务有着巨大的市场需
网格中资源具有地理位置分布、运行平台异构、种类繁多的特性,它们能动态的加入或退出网格环境。因此,资源的发现和监控问题成为网格技术发展中必须要解决的问题,也成为研究
访问控制是提高工作流安全性的重要机制。本文研究了当前基于角色和任务的工作流访问控制模型的应用背景,分析与总结了工作流访问控制需求要点,针对现有的访问控制机制在工作
网格计算自从第一次被用到科学和商业领域到现在已经取得了长足的进步。相信网格计算的下一个阶段是将网格服务提供给资源受限的设备,例如手持设备、PDA、智能手机、传感器等