用于比较RAMS标准的机器学习算法开发

来源 :清华大学 | 被引量 : 0次 | 上传用户:wolaile999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类用来沟通的工具。尽管所有人都对它很熟悉,但我们的知识和文化直接影响着我们与他人交流的方式,因此不同的句子可能具有相同的含义。自然语言处理是专注于研究计算机和语言之间交互的领域。在过去的几十年中,随着重要性日益增加的信息工具,分析文本片段变得更容易和更快捷,这领域也受到了越来越多的关注。更确切地说,文本比较是许多应用中的关键任务,例如机器翻译,信息检索和问答等等。这项任务的主要困难是确保计算机程序能够有效地处理文本片段或大型语料库,以真正理解句子的含义。在这项研究工作中,我们专注于近义句子识别任务(判断一对句子是否近义)的应用,以比较RAMS标准文档。我们的方法研究了大量的词汇,句法和语义特征。我们研究这些特征对模型性能的影响,特别是将它们结合在一起以确保对句子全面的理解。之后,我们用这些属性训练两种不同类型的模型,一个多数胜算法和输种机器学习分类器(线性和非线性)。我们发现特征选择和组合是确保近义句子识别任务良好表现的关键步骤。另外,我们的结论是,虽然基于经验和传统方法的多数胜算法表现的不错,但几乎所有的机器学习分类器都超过了它。通过对支持向量分类器的算法进行调整,我们可以为针对近义句子识别任务取得非常优秀的成果。
其他文献
随着社会的发展,大型室内场所越来越多,室内结构更加复杂,人们对于室内位置服务的需求越来越迫切。同时,人们对于室内定位、导航等算法的研究也非常热门。但是由于大部分定位
恐惧是当个体感知到危险或者威胁的时候产生的主观感觉。恐惧行为对于人和动物在自然界的生存具有积极的意义,然而对于生活在现代社会的人类个体,过分的恐惧也能够对生活和工
近年来,随着经济的发展,中国汽车产业也迎来了新的发展机遇与挑战。随着生活水平的提高,越来越多的家庭开始购买不止一辆车。庞大的需求也促进了国内汽车制造商的蓬勃发展,同
柴达木盆地的盐渍化问题严重制约了盆地生态系统建设以及农林牧业的可持续发展。在现有耕作、灌溉制度下,盆地约一半农田将面临盐渍化的风险,且这种盐渍化高风险的农田占了现
近年来,随着大型城市燃气管线的建设,燃气管线损坏引起的火灾、爆炸等事故不断增加。燃气管线事故会给人们带来巨大的生命财产损失,但实际的生产生活中仍然缺乏快速有效的手段来识别占压、穿越等燃气管线隐患,因此急需有效措施来发现和预防这些燃气隐患。目前,建筑物、道路等造成的占压、近距类隐患依然主要依靠人工巡检,没有自动化检测手段。故本文提出了基于GIS软件矫正后的高精度遥感卫星图像来快速确定隐患点的方法。本
四川境内汶(川)马(尔康)速、雅(安)康(定)高速及G318康定-竹巴笼段、G317马尔康-德格段等路段是内地通往西藏、青海地区的交通要道。区内地质环境复杂,构造活动强烈,线路通过
西伯利亚落叶松(Larixsiberian Ledb.)是我国西北地区特有的针叶树种,也是阿尔泰山分布最多的建群树种之一。针对新疆阿尔泰山特殊的地理位置以及相关研究较少的现状,本文利
人工林广泛被用于冀北地区的植被恢复。随森林生态系统服务功能日益受到关注,其造林过程中所发生的植被、环境变化也更为被人们所重视。本研究以冀北山地不同龄组油松人工林
随着近年来信息技术和物联网的快速发展,工业开始从自动化向智能化和网络化转变,信息化与工业化结合成为未来工控产业发展的必然趋势,随之,工控系统的安全隐患也在逐步增加。电力系统中应用了大量获取数据的技术以及通信设备,容易被恶意的攻击者利用,对国家造成不可挽回的损失。因此,开放式网络环境下的电力系统数据安全传输成为当前电力安全领域的重要研究方向之一。密码学中的数字签名作为保证信息安全最直观有效的技术手段
白草坪锶矿床位于滇西兰坪金顶铅锌矿田的南西部,是一个大型天青石矿床,并发育多层位、多类型的石膏,仅局部具少量铅锌矿化。但是,由于区内复杂多样的沉积组合、构造变形和多