【摘 要】
:
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。
【机 构】
:
中央民族大学信息工程学院,国家语言资源监测与研究少数民族语言中心,好未来教育科技集团
【基金项目】
:
国家自然科学基金(61331013,61501529)
论文部分内容阅读
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约1
其他文献
海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主
立柱是轻量化中巴车身的核心构件,其综合力学性能取决于型材截面形态。提出一种基于响应面的截面特征参数多目标优化方法,首先进行6063铝合金材性试验及立柱构件的拉伸和弯曲
GJB899对飞机机载设备可靠性振动试验剖面的确定已有较为详尽的描述,但在实际工作中,一些具体内容仍难以应用。为解决此问题,分别从任务剖面的确定、振动谱形的选取、起飞振
本文分析了精确制导武器及其支持系统C3I的发展概况和未来发展趋势,探讨了多传感器信息融合技术在精确制导武器与支持系统C3I中的应用前景,阐明了信息融合技术是实现武器精确制导和C3I系
目的:总结兔眼后囊膜混浊模型建立过程中的成功经验及注意事项。 方法:选择新西兰白兔10只,每只兔选取右眼进行超声乳化晶状体摘除术,对手术中的乳化功率、时间等参数进行统计。
如果将中国医改起始的时间界定在1985年,那么30年来随着医改对中国社会和个体的影响日益加深,医改已从专业问题转为公众话题。尤其是近五年来,围绕着新医改的效果、公立医院
实验哲学自兴起以来,科学哲学界对它的质疑和批评从未停止:质疑实验哲学方法的有效性,怀疑实验结论的可靠性,甚至否定实验哲学的学科独立性。针对这些质疑和责难,文章试图通过
随着时代的发展,微信公众号得到快速发展,目前已经普遍应用于各行各业,在这种时代背景下,高校图书馆也将自身的资源与服务发布在微信平台。文章讨论了微信公众号对高校图书馆
以电液伺服系统在连轧管机中的应用为背景,设计建立了一套基于遗传算法控制的电液伺服系统试验模型。利用遗传算法通过对比例积分微分(PID)参数进行实数编码、选择合适的适应度
鞭炮声响了半个时辰后,烟花升腾。来往的行人都停下脚步观望。就连城墙外挨墙根横七竖八躺着的逃荒者,也不由得眯起眼睛,紧盯着面前的璀璨,有那么片刻,忘记寒冷与饥饿,沉浸在