【摘 要】
:
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法.通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测.实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影
【机 构】
:
武汉科技大学计算机科学与技术学院,湖北 武汉,430065;武汉科技大学大数据科学与工程研究院,湖北 武汉,430065;武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,43006
论文部分内容阅读
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法.通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测.实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能.
其他文献
辽河油田储气库群的部分区块存在地层出砂风险,需要采用筛管防砂完井,而筛管评价及优选是筛管防砂完井的关键.为更好地满足气井防砂评价试验的需要,基于筛管防砂原理,研制出一套气井防砂试验装置.该装置采用具有侧部导气槽和下部出砂口的砂漏结构设计,实现高速气体缓慢混砂功能,真实模拟气井防砂过程.同时,针对雷61储气库的地层砂特征和生产条件,开展了金属滤网筛管和自洁缝隙筛管的试验研究.研究表明:①金属滤网筛管初始过流能力是自洁缝隙筛管的3.8倍,筛管表面形成砂层后,金属滤网筛管过流能力是自洁缝隙筛管的4.5倍;②金属
M油田盐膏层压力窗口窄,井漏、溢流风险大,以往采用常规方法固井,固井期间井漏、溢流频发,固井质量差.为保障固井作业安全,提高固井质量,在传统控压固井技术基础上,进行了以下改进:①根据现场实际对设计软件进行校核与修正,提高模拟精度;②采取有效的技术措施防止流体间的污染;③实际作业时结合泵压变化精细调整排量.实际应用结果表明:①精细动态控压固井技术可以在提高循环和顶替排量的同时使环空压力始终保持在安全压力窗口之内,能提高冲洗效果和顶替效率,并避免井漏、溢流等复杂情况;②精细动态控压固井技术使得设计与实际更吻合
数字化、智能化转型已经成为我国油气开发提质增效的重要途径,如何实现气田生产系统的优化分析与智能辅助决策、构建支撑一体化模型的数据共享平台成为新油气田建设的关键难题之一.针对巨量数据资源与一体化模型的互联互通存在整合难度高、可用性差、模型加载自动化程度低等问题,开展了以下关键技术攻关:①结合数据服务总线(DSB)技术与PI OLEDB接口技术,搭建数据平台,形成支撑一体化模型高效运行的数据共享平台,实现分散数据的高度整合与有效利用,保障一体化模型数据资源的完整性;②针对磨溪区块龙王庙组气藏集输管网动态跟踪业
涪陵页岩气田为我国第一个实现商业化开发的页岩气田,目前页岩气开发已进入递减阶段,室内模拟开发过程的衰竭开采(定产、定压)实验的相关研究鲜有报道.因此针对目前生产产量递减过快的严峻形势,室内研制了模拟现场衰竭开采方式的实验方法和物模装置,利用该装置研究了页岩气开采递减规律及其影响因素,并采用偏最小二乘法(PLS)模块大数据分析方法,计算了最终采出程度的不同影响因素的权重(VIP值),确定最终采出程度的主要影响因素.研究结果表明:①页岩气高速衰竭开采时分2个阶段,低速时分3个阶段,生产井流态与之相似,衰竭开采
鄂尔多斯盆地L区块为致密砂岩气藏,天然气资源量大,但存在储层物性差、气水识别难、砂体分布复杂、非均质性强等问题,制约了本区致密气藏的勘探开发.为此,从地质工程一体化研究思路出发,结合岩心资料、钻井资料、地震资料和区域地质背景等基础资料,采用地质统计学反演进行储层砂体预测,利用协克里金算法预测储层孔隙度分布,利用地震高频衰减的算法预测含气性分布,通过多参数融合得到地质甜点有利区.利用地震蚂蚁体算法预测储层裂缝发育状况,利用地震叠前弹性反演得到脆性指数分布,进而判断储层可压性,由此得到工程甜点有利区.研究表明
岩石氯盐含量是研究岩心的重要参数之一,结合含水饱和度参数可以预测地层含水性.测定岩石氯盐含量执行行业标准SY/T 5503-2009《岩石氯盐含量测定方法》推荐的硝酸银滴定法和电量法.研究增加了离子色谱法,并讨论了这3种方法的利弊.研究结果表明:①电量法受外界干扰因素多,测定的数据重现性不好,耗时长,方法不普及;②硝酸银滴定法适用于较清洁水样的测定,适合现场快速检测,但标准溶液配制繁琐,且由于受浸泡液颜色、pH值、过渡金属及其他干扰因素影响,滴定终点判断误差大;③离子色谱法与硝酸银滴定法的比对试验表明,两
借助SEM/EDS、EPMA、XRD及洛氏硬度测试等手段,对氩气保护气氛下W3Mo4Cr5V6高速钢在热处理过程中的碳化物转变行为进行研究.结果显示,经淬火处理(1050℃×1 h,空冷)后,W3Mo4Cr5V6高速钢中碳化物发生了M2 C+γ-Fe→M6 C+MC+M7 C3的转变,在富Mo、W的M2 C相周围形成了大量富Fe、W、Mo的M6 C以及少量富V的MC和富Cr的M7 C3.M6 C优先在M2 C与基体界面处形核,并且因消耗M2 C中的Mo、W而使得其中V、Cr含量增加,进而促进MC及M7 C
乙醇含量的精确定量检测对于环境监测、临床诊断、食品检测以及饮用酒水都至关重要.以氯化铜(CuCl2)为铜源、聚乙烯吡咯烷酮(PVP)为保护剂、2-巯基苯并噻唑(MBT)为稳定剂、抗坏血酸(AA)为还原剂,利用声化学还原法,以绿色简单、快速便捷的手段成功合成出具有橙色荧光的铜纳米团簇(PVP-Cu NCs).利用紫外可见吸收光谱、荧光光谱、红外光谱、透射电镜和X射线光电子能谱技术研究其结构和性能,发现PVP-Cu NCs的最佳激发波长和发射波长分别为340和580 nm,其平均粒径为6.0 nm.PVP-C
四川盆地川西南部地区井漏、井壁垮塌、高压盐水侵等钻井复杂频发,严重影响井下作业安全和工程进度.为了减少钻井复杂故障率、为工程制定应对措施提供地质依据,采用地震、测井以及录井等多专业信息融合分析的方法,综合区域构造背景、地层岩性特征、地层高压流体特点对钻井井下复杂的地质原因进行了分析研究.研究结果表明:①断层和裂缝是引起研究区井漏的主要原因,其次是采空区地层压力下降导致压张性井漏和平衡高压盐水层压力的高密度钻井液引起盐水层上部低压地层压张性井漏;②井壁垮塌的主要原因是断裂和裂缝导致井壁围岩力学强度降低以及泥
X井区部分气井生产中后期产气量低于临界携液流量时会产生积液.间歇泡排(泡沫排水采气)是一种有效的排水采气措施.但是泡排剂从井口注入井筒之后,经过多长时间到达井底积液位置并扩散反应,对这个问题的研究较少,行业内一直没有形成准确易行的方法与认识,在一定程度上影响了泡排效果的正常发挥.因此,通过研究带环空气井在注入泡排剂之后井口油压、套压、气量和温度的变化趋势,以判定泡排剂下行时间和扩散时间,进而确定加注泡排剂后的关井时间,并探究了泡排剂流道横截面积以及压力对泡排剂下行时间的影响.结果表明:①泡排剂下行时间与泡