基于Bi-LSTM与CRF的泰语句子切分模型

来源 :计算机工程 | 被引量 : 0次 | 上传用户:xiaoyanmeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域中,对于泰语等东南亚语言的分句处理是一项具有挑战性的工作。将序列标注模型应用于句子切分任务,提出基于双向长短期记忆循环神经网络的句子边界自动识别模型。利用Glove词向量技术,将泰语句子中的词或字转换为不同维度的向量,进而将词或字向量组合成为句子向量输入模型进行训练。在此基础上,通过双向网络结构捕捉上下文信息以达到更好的句子切分效果。实验结果表明,该模型在泰语句子切分任务上表现出非常精准的识别效果。
其他文献
多部门协同创新的"大思政教育"为人们提供了很好的教育教学模式。在"大思政教育"体系中,由于"朋辈"之间的特殊关系及交往的全天候性,致使"朋辈引导"成为高职院校思政教育体系中的重要
<正>1计算机通信技术的发展计算机通信技术随着时代的发展运用也越来越广泛,例如我们在使用遥控器来调节声音大小时就会用到计算机通信技术。计算机技术的不断创新和发展也给
椎间盘退行性疾病是引起下腰痛的主要病因,严重影响患者的生活质量。纤维环损伤能导致椎间盘严重退变。然而,由于纤维环组织本身在细胞、生物化学和生物力学方面的异质性,纤维环
基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优。针对该问题,提出一种采用多目标蚁群优化算法的主题爬
我们在上网浏览后在地址栏中都会记录下所浏览过的网址,这就会泄露一些个人隐私,清除网址记录是很好的保护隐私的办法。  方法一:启动IE,在“工具”菜单里选取“Internet选项”。点击“常规”选项卡里的“清除历史记录”按钮即可(注:这种方法会将IE地址栏里所有的网址全部清除)。  方法二:关闭IE,在开始菜单里选择“运行(R)”。在弹出的窗口的“打开”栏里键入“Regedit.exe”,单击“确定
在智能手机市场中,除了Android、iOS、Windows Phone这些熟悉的操作系统之外,新生的系统也在蠢蠢欲动,试图在稳固的铁三角中谋求自己发展的空间。自2011年公开后,FireFox OS
自动配载是自动化码头运营的重要环节之一,往往需要考虑多种因素,限制条件复杂,是一个NP完全性问题。传统的配载算法更关注配载结果而忽视箱区调度对作业效率的影响,为提高堆
网络排队时延对了解网络带宽利用率与分析拥塞级别具有重要意义,而传统时延测量技术对网络流量和往返时延预测的时效性差且准确性低,容易忽略突发的网络延时变化。结合交换机
<正>LTE网络应用中不仅提供了高移动、低时延、高速率的数据业务,而且可以为用户提供优质、稳定的语言业务,结合网络设备的演化发展趋势,LTE业务主要包括Vo LTE、CSFB、多模