推动国内学术交流 助力科研成果推广

期刊论文、出版出书、评职称学术咨询

社会认可、全国通用、升职加薪的通行证

基于注意力LSTM的多阶段发酵过程集成质量预测

分类:农业论文 时间:2022-01-25 热度:446

  摘 要: 为考虑发酵过程的动态特征对阶段划分的影响,提高模型预测精度,本文提出一种基于注意力LSTM的多阶段发酵过程质量预测方法. 首先,将原始三维数据沿批次展开,对每个时间片矩阵进行偏最小二乘(partial least squares, PLS)分析得到表征过程变量的得分矩阵和表征质量变量的得分矩阵,采用仿射传播(affinity propagation, AP)聚类算法将联合得分矩阵进行聚类,实现第1步划分;然后,采用encoder-decoder模型将表征过程动态性的动态特征提取出来,采用AP算法对其进行第2步划分;最后综合分析两步划分结果,将生产过程划分为不同的稳定阶段和过渡阶段,对划分后的各个阶段分别建立注意力LSTM集成质量预测模型.将该方法应用到青霉素发酵仿真数据和大肠杆菌实际生产数据进行验证,结果表明所提方法的可行性和有效性.

基于注意力LSTM的多阶段发酵过程集成质量预测

  关键词: 发酵过程;多阶段;偏最小二乘;动态性;过渡;质量预测

  0 引 言

  间歇过程作为现代工业过程中极其重要的一种生产方式,已经被广泛应用于医药、食品、生物化工、半导体等多品种、高附加值产品的生产中[1] . 然而在某些生产如发酵过程中,质量变量难以实现在线测量. 手工离线测量不仅操作繁琐耗时,给人带来了额外的工作量,而且在取样过程中万一操作不慎,便很可能使整个发酵罐染上杂菌,这对生产来说带来了极大浪费. 因此,为提高产品质量和工艺效率,在线质量预测的重要性日益突出[2-4] .

  近些年来,随着分布式控制系统(DCS)及智能仪表的广泛使用,大量过程数据被采集、记录下来[5] ,因此一些基于数据驱动的方法在间歇过程建模、监测和质量预测中取得了广泛应用[6-11]. WOLD等[12]提出的偏最小二乘(partial least square, PLS)是一个广为人知并加以利用的有效工具. 但是该方法假设数据是线性的,为了解决这个问题,Lindgren F和Rosipal R等[13-14]将核技巧与偏最小二乘方法结合起来,提出了核偏最小二乘(Kernel partial least squares, KPLS)方法. 但是传统多元回归建模方法较为简单,在如今的大数据背景下,面对数据量大、 价值密度低等问题处理能力远远不足[15] . 近年来,神经网络由于强大的非线性信息学习能力,在工业生产中的重要变量预测方面有很多应用. Shang等[16]首先利用深度置信网络(DBN)来为原油蒸馏装置建立软测量模型. Yan等[17]将降噪自编码器和另一个神经网络结合来改善模型预测性能,提升了模型的鲁棒性. Yao等[18]使用分层极限学习机实现半监督软测量的建模. 但是以上方法大多属于静态建模方法,即假设过程处于稳定运行状态,变量之间不存在序列相关性. 而对大多数实际工业过程而言,过程观测变量呈现出动态特性,并不满足上述假设. 最近,循环神经网络(RNN)在处理时间序列的预测时体现出了极大优势[19] ,传统RNN虽然适用于处理非线性时间序列,但当时间步长较大,网络的误差梯度沿时间反向传播会存在梯度消失与梯度爆炸的问题,使得难以学习到较为久远的序列信息. LSTM网络是由Hochreiter等[20]提出的一种改进RNN,核心贡献为引入了内在记忆的线性自循环结构,具有使产生梯度长时间持续流动的路径,其中导数既不消失也不发生爆炸.

  多 阶 段 特 性 是 发 酵 过 程 中 的 一 个 典 型 特性[21-22] ,显然对整个生产过程建立单一模型是不完善的,因此许多国内外专家对阶段划分进行了大量研究. Yu等[23]提出基于高斯混合模型(Gaussian mixture model, GMM)的阶段划分方法,Camacho等[24]提出了一种线性局部模型逼近方法,实现阶段划分的目的,Lu等[25]提出了基于K-means的间歇过程子时段划分方法,但是这些方法属于硬分类方法,忽略了两阶段间的过渡信息. 相比各个稳定阶段的运行状态,阶段之间的过渡虽然不代表主流的过程操作机理,但却是一种普遍的现象及重要的过程行为,表现为一种动态的渐变趋势. 在此基础上Zhao等[26]引入模糊隶属度作为两个相邻稳定阶段的权重系数,然后使用K-means进行阶段划分,Qi等[27]采用模糊C均值聚类(fuzzy C-means clustering, FCM)对时间片进行阶段划分. 但是上述方法没有考虑到质量变量对阶段划分的影响,而且将每个采样时刻单独看成一个单元进行分析,忽略了不同时刻前后的联系,因此对过程动态特征变化的捕捉不够灵敏. 而发酵过程的多阶段特性很大程度上由表征过程变化的动态性体现出来,在不同阶段发酵过程具有不同的动态特征.

  针对以上问题,本文提出一种基于动态特征提取的两步阶段划分算法,并在子阶段建立注意力LSTM集成质量预测模型. 该方法首先将沿批次展开的二维数据矩阵划分为不同的时间片,对每个时间片矩阵进行PLS分析得到原始过程变量和质量变量的得分矩阵,采用AP(affinity propagation)算法[28]将联合得分矩阵进行聚类,实现操作阶段的第1步粗划分;之后采用深度学习中的encoder-decoder模型[29]将表征操作过程动态性的动态特征提取出来,采用AP算法对其进行第二次阶段划分,综合分析两步划分结果最终将整个生产操作阶段划分为不同的稳定子时段和过渡子时段. 最后在各个操作阶段分别建立注意力LSTM集成质量预测模型. 与前人工作相比,本文方法主要有以下优点:1) 由于时间片PLS建模忽略了时间片前后的联系,且传统的PLS方法属于静态方法,本文提出的方法将原始数据的静态特征和动态特征全部考虑进来,采用encoder-decoder模型提取的动态特征进行2次划分弥补了1次划分的不足. 2)AP聚类算法无需事先指定聚类中心的数目,实际在大多数情况下,对于一个复杂、陌生的工业过程,很难知道其确切的阶段数目. 3)综合分析两步的划分结果可以将整个操作阶段划分为稳定阶段和过渡阶段,使得划分结果符合实际生产过程. 4)在预测时,在传统LSTM网络的基础上加入了注意力机制并引入了集成学习思想,使得预测结果更加精确.

  1 离线建模策略

  1.1 阶段划分方法

  1.1.1 偏最小二乘(PLS)

  偏最小二乘(partial least squares, PLS)方法主要针对因变量和自变量之间建立回归关系. 对于一组生产过程数据,自变量可以认为是一些易测得的过程变量X,因变量可以认为是一些难在线测量的质量变量Y . 传统PLS本质上是一种静态、线性建模方法.

  1.1.2 Encoder-decoder模型

  Encoder-decoder模 型,也 称seq2seq模 型,它 是 深度学习中一个常见的结构. 通过编码部分可以将输入序列编码成一个固定长度的向量,该向量经过解码部分可以转换成一个输出序列. 我们使用的用来提取过程动态特征的encoder-decoder模型结构如图1所示. 编码部分和解码部分的基本单元可以为RNN,LSTM等. 由于LSTM网络可以解决传统RNN网络中存在的梯度消失和梯度爆炸问题,因此选择使用LSTM网络作为该模型的基本单元. Encoder-decoder模型的输入要求是序列,因此将过程变量处理成序列格式作为编码部分的输入. 由于经过编码后得到的向量C连接了编码和解码部分,又因为该模型采用LSTM作为基本单元,LSTM存储单元中使用记忆细胞保存信息,通过输入门、遗忘门和输出门来控制细胞状态,其中,输入门控制信息流对细胞状态的更新,遗忘门决定从细胞状态中丢弃的信息,而输出门最终确定存储单元的输出,因此该向量C的值不仅体现了当前时刻T的动态特征,而且考虑了时刻T之前的采样值对T时刻的影响,因此向量C的值体现了与输出序列相关的输入序列的动态变化[30] . 此外,阶段划分完成后在建立质量预测模型时同样可采用encoder-decoder模型,因此在阶段划分时首先将该模型能够提取的信息进行分析有助于更好的理解该模型能够处理的不同时刻的数据特点. 综合考虑数据本身的特点以及数据内部的变化特点,有助于更好的建模,提升预测精度.

  1.1.3 基于动态特征提取的两步阶段划分方法

  发酵过程的历史过程数据是三维矩阵,由X(I × Jx × K)表示,其中,I为批次,Jx为过程数据变量,过程数据在发酵过程中是可以在线测量的,K为每个批次的采样时刻数. 质量数据由Y (I × Jy × K)表示,在实际生产中质量变量由离线测量获得. 本文假设建模所需的各批次操作时间都是等长的.

  为了同时考虑过程变量和质量变量对生产过程阶段划分的影响,本文将质量变量的得分矩阵U和过程变量的得分矩阵T结合起来得到联合得分矩阵. AP聚类算法相较其他聚类算法无需事先指定聚类数目,因此可以更合理的将过程数据进行划分,将每个时间片的联合得分矩阵使用AP聚类算法进行初步划分,由于每个联合得分矩阵是对每个独立时间片采用PLS算法得到的,同时传统的PLS算法是线性的、静态的,所以得到的结果不仅忽略了每个时间片的非线性特征,也忽略了时间片前后的动态变化信息,因此我们认为使用AP聚类算法是对原始数据的静态特征进行的聚类,得到的聚类结果只能反应出原始数据大致的分布特征. 发酵过程的动态非线性往往与发酵阶段密切相关,因此我们有必要将动态非线性特征提取出来进行细化分.

  我们使用训练好的encoder-decoder模型进行动态特征提取,每一个时刻的输入度可以得到对应时刻的动态特征. 然后将所有批次得到的动态特征进行组合得到动态特征时间片. 然后使用AP聚类算法对所有时间片进行划分,最后综合分析两步划分结果,将发酵过程划分为不同的子阶段.

  1.2 子阶段质量预测

  1.2.1 基于注意力机制的encoder-decoder模型

  在 前 面 使 用encoder-decoder模 型 进 行 动 态 特征 提 取 实 现 了 阶 段 划 分,对 于 阶 段 划 分 来 说 使用encoder-decoder模型提取出的动态特征足够表征出过程动态性. 但是在建立预测模型阶段,为了提高预测精度,我们引入注意力机制. 该模型结构如图2所示.

  1.2.2 注意力LSTM集成预测模型

  集成学习在很多应用领域有效地提高了回归模型或分类模型的精度[33-34] . 集成学习的思想是以多样性为原则建立多个模型,然后融合它们的输出作为最终结果. 同单一模型相比,使用集成模型可以明显提高预测精度.

  Bagging通过有放回的重采样原始训练集来满足产生多个回归模型的多样性原则,最后通过将多个预测值取平均来改善预测性能. 考虑到发酵过程有的变量之间存在较强的相关性,在训练模型时若存在过多的冗余信息会大大增加过拟合的风险,同时为了满足集成学习要求增强不同模型之间的差异性,使用bagging策略在发酵过程的J个变量中每次有放回的随机取j个变量,共取M次,这样便得到了M个模型. 最终预测结果由M个模型的预测结果取平均值得到,见式(8).

  2 全局质量预测策略

  全局质量预测策略如图3所示. 离线建模过程中,首先将正常发酵过程的三维历史数据沿批次方向展开,然后对每个时间片做PLS分析,得到X和Y 的得分矩阵,将两个得分矩阵左右排成一个矩阵,得到联合得分矩阵,采用AP聚类算法对时间片的联合得分矩阵进行划分,实现第一步划分. 然后采用seq2seq模型提取过程数据的动态特征,采用AP聚类算法实现第二步划分. 最后建立子阶段质量预测模型. 生产过程中,依据采样时刻判断当前所处阶段,然后根据所属阶段的模型进行预测. 阶段划分后可以使得在同一子阶段内的数据具有高度相似的特征. 以建立局部模型代替整体模型可以大大提高模型的精度,减小模型预测误差.

  3 实验与结果分析

  3.1 仿真实验

  Pensim仿真平台是国际上较有影响力的青霉素仿真平台,相关研究已表明其实用性与有效性[35-36] . 本文基于该平台对青霉素的发酵过程进行了实验仿真,设定每批次发酵时间为400h,采样时间间隔为1h,选择11个过程变量(包括通风速率、搅拌功率、底物流加速率、底物温度、溶解氧浓度、排气二氧化碳浓度、酸碱度、温度、反应热、冷水流加速率和底物浓度)和1个质量变量(产物浓度)进行监测,共产生60批正常数据,其中40批用来建模,20批用来测试.

  观察结果可知,不同于静态特征的相似度函数,此时不用考虑时间约束就可以将动态特征时间片实现较理想的划分,不存在两个相邻阶段转换时的强烈波动状态. 为此,引入Sihouette准则评价聚类效果的好坏. 对于一系列聚类结果的Silhouette指标值,值越大表示聚类质量越好,最大值对应的类数是最优的聚类个数,对应的聚类结果也是最优的. 为了合理判定聚类效果好坏,通过多次实验,将采样点Sihouette准则的平均值作为临界值[32] ,在该仿真实验中将临界值确定为0.7. Sihouette值比0.7低则认为聚类效果很差. 由于采样宽度为10,因此前9个时刻的动态特征无法提取出来,观察静态特征划分结果发现第1个子阶段的时刻远远比9大,所以不妨将前9个时刻的划分结果和第10个划分到同一阶段. 根据Sihouette值可知,41~54,77~175,238~275时刻的聚类效果不好,而在其他时刻聚类效果较好. 最后综合分析划分1~43,55~142,176~266,276~400时刻为稳定阶段,44~54,143~175,267~275时刻为过渡阶段.

  为了验证本文所提方法的有效性,实验将本方法与不分阶段的注意力LSTM集成预测模型、使用本文提出的阶段划分方法再分别建立传统LSTM模型、直接对第一步划分结果建立注意力LSTM集成预测模型三种情况进行对比.

  3.2 算法实际验证

  生物制药中利用大肠杆菌生产白介素-2是一个典型的多阶段发酵过程,其生产过程的持续时间大约为6~7h. 本文选取北京某生物制药厂的大肠杆菌发酵过程实际生产数据进行算法验证. 选取以下8个过程变量(包括酸碱度、溶解氧、浓度罐压、温度、搅拌速率、 补碳、 补氮、 通风速率)和1个质量变量(菌体浓度). OD600的值可以间接反应出菌体浓度,工作人员根据其值的变化用来确定下一步操作. 生产过程中采用离线测量OD600的值,有一定的时间滞后性,不能及时反馈并指导生产. 因此对OD600进行准确在线预测有着重要的实际意义. 现场的发时间为6h,采样间隔为10min. 共采集28批正常数据,其中20批用于阶段划分和离线建模,剩余8批用来测试. 为使实验结果更具说服力,采用与上节仿真实验相同的对比实验.——论文作者:高学金1,2,3,4† , 孟令军1,2,3,4 , 高慧慧1,2,3,4

文章名称:基于注意力LSTM的多阶段发酵过程集成质量预测

文章地址:http://m.sciqk.com/p-12741.html

相关推荐:

NOW!

Take the first step of our cooperation迈出我们合作第一步

免费咨询,高端品质服务、还犹豫什么呢?


点击咨询学术顾问