面向建筑领域的中文分词方法研究

来源 :北京建筑大学 | 被引量 : 0次 | 上传用户:gdzsljw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,各专业领域的信息化和数字化建设正在不断推进,由此产生的海量数据对各专业领域的信息处理工作带来了挑战。作为建筑领域信息化的重要手段,建筑信息模型(Building Information Modelling,BIM)是对建筑基础设施的数字化表达,包含建筑物全生命周期内的所有信息数据。目前,BIM常作为核心技术应用于建筑领域中信息化中。自然语言处理(Natural Language Processing,NLP)作为目前人工智能领域信息处理的关键技术,在很多信息处理工作中显示出了极其优秀的性能。在中文环境中,中文分词作为信息处理的基础环节,在NLP应用中发挥着重要作用。在跨领域分词中,往往需要大量专业领域术语特征。然而,建筑领域术语特征分布并不规律,其中跟工程项目相关的术语特征分布在各个建设项目中,个性化较强,难以收集并应用于建筑领域分词中,因此建筑领域中的中文分词性能较差,这大大影响了基于自然语言处理的建筑领域BIM应用的推广和使用。针对建筑领域中文分词性能较差的问题,本文对面向建筑领域的中文分词方法进行了研究,并提出了面向建筑领域的中文分词方法。该方法首先对当前BIM主流数据标准,即工业基础类(Industry Foundation Classes,IFC)进行了分析,并提出和实现了基于IFC标准的BIM工程信息提取方法,然后通过构建建筑领域本体实现了建筑领域特征的存储和管理,最后对条件随机场和主流神经网络中文分词训练方法进行研究,一方面将建筑领域特征融入中文分词训练过程中,另一方面将预训练模型迁移至神经网络分词系统中,实现了建筑领域中文分词性能的提升。主要研究内容及成果包括:(1)提出了基于BIM的建筑领域特征拓展方法。在本文中,建筑领域特征分为建筑领域术语和建筑工程术语。首先,本文研究了IFC数据标准,并分析以IFC标准为基础的BIM文件格式IFC文件,提出并实现了基于IFC标准的BIM项目信息提取方法,有效地提取了BIM项目中的建筑领域特征,为面向建筑领域的中文分词研究提供了数据基础。然后构建了建筑领域本体,并以建筑领域本体为基础提出了基于BIM的建筑领域特征拓展方法,实现了建筑领域特征的统一存储和管理。(2)提出了基于条件随机场的建筑领域中文分词方法。基于条件随机场中文分词方法,本文通过将建筑领域特征利用4-tag方法进行标注,然后融入训练语料中,并且在后处理阶段结合最大匹配方法,提升中文分词在建筑领域的性能。为了验证所提方法的有效性,本文建立了建筑领域文本测试集和BIM模型测试集,实验结果表明,相较于未融入建筑领域特征时,该方法在测试数据集上有效提高了建筑领域中文分词的性能。(3)提出了基于迁移学习的建筑领域中文分词方法。基于神经网络分词方法,本文一方面将建筑领域特征标注后融入训练语料中,另一方面,利用迁移学习的基本思想,将由改进Bert语言模型迁移至BiLSTM-CRF分词系统中,称为Bert*-BiLSTM-CRF,通过提高神经网络分词系统字向量特征提取的效果,来提升中文分词在建筑领域的性能。实验结果表明,相较于未融入改进Bert语言模型时,该方法在测试数据集上有效提高了中文分词在建筑领域的性能。
其他文献
目前大型科学工程正在向大尺寸、甚高精度、海量信息、不可逆转、多测量系统组合应用的方向发展。鉴于大科学工程对精密测量的需求,大尺寸高精度三维控制网的仿真布设通常依靠经验模型,缺少系统、有效的理论方法指导,导致大尺寸三维控制网的测量精度和效率受到了明显制约,基于多测量系统组合的大尺寸三维控制网的仿真分析已经成为该领域的研究热点。鉴于大尺寸三维控制网仿真布设及数据解算分析流程,分析了大尺寸三维网面临的低
点蚀是双相不锈钢服役过程中的主要失效形式之一,双相不锈钢在热处理的过程中,两相组织比例发生改变,合金元素在两相中重新分配,导致其点蚀抗性、点蚀萌生及扩展行为均发生变化。本文主要利用多种微区电化学手段,结合微观分析技术,以2205双相不锈钢为研究对象,研究了组织配分对双相不锈钢微区极化行为及点蚀抗性、氧化物夹杂/不锈钢基体界面微区电化学活性、以及双相不锈钢点蚀扩展的影响。试图揭示双相组织影响双相不锈
地铁车辆具有时变载荷变化大,站间距离短,运行环境恶劣,频繁启制动等特点,导致车轮在运营过程中磨损严重,甚至容易出现沟槽、多边形、扁疤等异常损伤的情况,这些损伤直接导致轮轨接触关系恶化,对行车安全造成危害,尤其在曲线行车时加上外轨超高与线路不平顺的影响,使轮轨作用剧烈,车辆适应性变差,发生脱轨的可能性大大提升,而车辆脱轨是一个极为复杂的过程,受到许多外部因素的影响,难以采用单一理论公式来有效的对其进
近年来,频发的城市内涝已经成为我国城市建设中亟待解决的重要问题。研究表明,采用透水基层材料以加强路面结构的雨水下渗能力是缓解城市内涝的有效途径。大粒径透水沥青混合料LSPM(Large Stone Pemeable Mixture)作为透水基层材料之一,不仅具有较高的强度,而且能够防治半刚性基层沥青路面反射裂缝等病害,因此其在未来的城市道路建设中具有广阔的应用前景。作为透水材料的关键设计参数,空隙
随着社会的进步,经济水平的增长,生产要素流动性增大,交通做为生产要素流通的载体,是城市发展的重要动力,对交通时间序列进行预测,有重要意义。本文主要研究的交通时间序列为交通指数数据和南锣鼓巷景区客流数据,利用统计学,机器学习等方法分析数据的特点,并通过深度学习模型提取、应用交通时间序列特征,实现交通时间序列的预测,本文主要研究内容如下:1.对应用于Natural Language Processin
图像语义分割通过计算机对图像的不同区域进行分割和识别,其本质是通过逐像素分类赋予每个像素不同语义信息的过程。随着现代人工智能技术发展,图像语义分割技术已经在医疗辅助诊断、无人驾驶、遥感图像解译等众多领域取得了广泛应用。可见,图像语义分割具有研究和应用价值。但是,现阶段的语义分割算法存在小尺度目标漏分割、误识别和大尺度目标内部分割不连续、边界分割不清晰的问题。因此,本文开展了基于编解码结构的图像语义
随着5G时代的到来,数字城市、智慧城市建设开始进入快速发展阶段。智慧城市是基于云计算、物联网等新信息技术构建的信息化城市,该建设的实施与发展对测绘领域城市建筑物模型构建提出更高要求,尤其在模型精细化方面,完整而精细的城市建筑物三维模型要求对立面做进一步详尽描述,因此针对建筑物立面模型构建以及立面细节信息提取进行研究十分必要。城市建筑物三维模型构建数据来源主要包括点云与影像数据,显而易见基于点云数据
在2013年,“雾霾”成为了年度关键词。冬季我国北方地区严重的雾霾现象引起了人们对清洁供热的重视程度。2014年,我国北方农村地区冬季的供暖主要依靠散煤燃烧,冬季供暖用煤占生活用煤的90%以上。对此,国家对“2+26”城市深入推进煤改清洁能源政策。力争2021年前,使这28个城市告别烧煤取暖。北京的“煤改电”政策在其中代表性较强。但是,由于“煤改电”政策中使用空气源热泵作为单一热源进行供热的效率不
高炉冶炼本质是在高温下实现含铁矿物还原、渣铁熔分,生产出优质的铁水的过程。高炉造渣过程经历了初渣、中间渣和终渣,因此炉渣对高炉冶炼的影响是连续的,需要系统考虑。本文针对高炉初渣、中间渣、终渣性能的变化开展研究,采用实验测量和数据回归的方法,揭示二元碱度、FeO、Al2O3和Mg O含量变化对炉渣熔化性能、流动性能、表面性能和密度的影响规律,分析铁矿石的还原度对初渣、中间渣、终渣性能的影响规律,研究
初中物理实验教学作为物理教学的重要环节,可以使学生在直观形象的物理认知基础上理解物理理论知识,这种生动、有趣的知识展示方式也能激发学生的物理学习兴趣。主要提出了初中物理探究性实验教学的组织方式,并归纳出课堂教学手段,为初中物理实验教学的优化创新提供参考。