Machine Learning กับ Chemical Process Design ทั้งสองอย่างนี้มาเจอกันได้ยังไง เดี๋ยวเล่าให้ฟังครับ

Published in

TechNounia

7 min readJun 22, 2023

เกริ่นนำ

หลายคนอาจมองว่า Chemical Process design หรือการออกแบบกระบวนการทางวิศวกรรมเคมี อาจเป็นเรื่องที่เข้าใจยาก และซับซ้อน ต้องอาศัยวิศวกรกระบวนการหรือวิศวกรเคมีที่เชี่ยวชาญในการออกแบบกระบวนการเหล่านั้นมาออกแบบว่า กระบวนการทางเคมีต้องใช้ Unit operations อะไรบ้าง มีสมบัติทาง Thermodynamics ใดบ้างที่ต้องพิจารณา ฟังดูทำเอาเหนื่อยเลยใช่ไหมล่ะครับ

ตัวอย่าง Chemical Process diagram (ที่มา Creating a Create a Chemical Process Flow Diagram | ConceptDraw HelpDesk)

การที่จะนำเอา Machine Learning มาช่วยในการออกแบบกระบวนการเหล่านี้ได้ด้วยคงจะดีไม่น้อยเลย จึงน่าสนใจว่า จะมีใครหยิบ Machine Learning มาประยุกต์ใช้กับ Chemical Process design บ้างไหมหนอ

ความคิดที่ว่านี้เกิดขึ้นไม่นานมานี้เอง โดยมีคณะวิจัยจาก Delft University of Technology ซึ่งเป็นมหาวิทยาลัยชั้นนำทางด้านวิศวกรรมและเทคโนโลยีที่ประเทศเนเธอแลนด์ พวกเขาได้ประยุกต์เอา Reinforcement Learning ซึ่งเป็นส่วนหนึ่งของ Machine Learning มาใช้ในการออกแบบ Flowsheet หรือแผนผังของกระบวนการ ของการผลิต Methyl Acetate ซึ่งฟังดูไม่ซับซ้อนเท่าไร แต่ถือว่าเป็นประตูสู่โอกาสใหม่ ๆ ในการนำ Machine Learning มาใช้กับทางด้าน Process design ได้เลยทีเดียวครับ

Delft University of Technology (ที่มา PhD Positions Delft University of Technology the Netherlands — Scholarship Positions 2022 2023 (scholarship-positions.com))

ว่าแต่จะเป็นยังไงนั้น ไปรับชมกันดีกว่าครับผม

ที่ไปที่มาของงานวิจัย

บทความนี้จะอ้างอิงจากงานวิจัยสองฉบับ ได้แก่ Transfer learning for process design with reinforcement learning [1]โดย Qinghe Gaoa , Haoyu Yanga , Shachi M. Shanbhaga , Artur M. Schweidtmann และ Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks [2]โดย Laura Stops, Roel Leenhouts, Qinghe Gao, Artur M. Schweidtmann

และเพื่อให้ง่ายต่อความเข้าใจ เนื่องจากงานวิจัยทั้งสองเป็นวิจัยที่เกี่ยวข้องกัน โดยงานแรกจะต่อยอดมาจากงานที่สอง เพราะมีการประยุกต์ใช้ Transfer Learning เข้ากับ Reinforcement Learning ด้วย ขณะที่งานที่สองจะเป็นรากฐานให้กับงานแรก รวมไปถึงทั้งงานมี Case study เดียวกันคือการผลิต Methyl Acetate จึงจะหยิบงานวิจัยฉบับแรกมาพูดเป็นหลัก โดยใช้งานที่สองมาอธิบายถึงโมเดลของ Reinforcement Learning ในเชิงลึกครับ

เข้าเรื่องกันเลยดีกว่า…

คณะวิจัยได้เล็งเห็นว่าการเปลี่ยนผ่านทางด้านวิศวกรรมเคมีไปสู่ความยั่งยืนและการหมุนเวียนได้นั้นต้องอาศัยวิธีการใหม่ในการออกแบบกระบวนการ โดยหนึ่งในนั้นคือการประยุกต์ใช้ Reinforcement Learning หรือ RL ที่เป็นแขนงหนึ่งของ Machine Learning หรือ ML ซึ่งนับได้ว่าให้ผลที่น่าสนใจในการออกแบบกระบวนการ โดยหนึ่งในความท้าทายในด้านนี้คือใช้กระบวนการสอนแบบลองผิดลองถูก (trial-and-error based training) ที่ต้องอาศัยการจำลองแบบจำนวนมากมาใช้ในการสอนนี้ ทำให้ต้องสิ้นเปลืองกำลังในการประมวลผลเป็นอย่างมาก

ทำให้คณะวิจัยได้เสนอการใช้งาน Transfer Learning สำหรับการออกแบบกระบวนการเข้ากับ Reinforcement Learning ซึ่งเป็นเทคนิคที่เพิ่มประสิทธิภาพได้จากการจะจับเอาความแตกต่างที่มีความเชื่อมโยงไปยังเป้าหมายหลัก

โดย Reinforcement Learning จะใช้ตาม Markov decision process หรือ MDP (อ่านเพิ่มเติมได้ที่: Markov Decision Process — GeeksforGeeks) ที่โมเดลจะมุ่งเน้นไปที่การเพิ่ม Reward ให้สูงที่สุด ด้วยการ Action, ประเมิน Reward และปรับค่า Reward ใหม่ โดยจะแบ่ง Action ออกเป็นสองส่วนคือ 1. ส่วน Discrete ประกอบไปด้วยการเลือกใช้ Unit operation และตำแหน่งของพวกมันบน Process flowsheet และ 2. ส่วน Continuous ที่จะใช้อธิบายการออกแบบและตัวแปรต่าง ๆ ของ Unit operation โดยจะทำ Action เหล้านี้วนไปเรื่อย ๆ เพื่อให้ RL model นี้เกิดการเรียนรู้ใหม่ ๆ จากการ Action ใหม่เรื่อย ๆ ซึ่งจะนำไปสู่ผลที่ดีขึ้นของ Process flowsheet

อ่านเพิ่มเติม Markov Decision Process
Markov Decision Process — GeeksforGeeks

ในส่วนของ Reinforcement learning เอง สามารถแบ่งออกเป็น 2 แนวทางด้วยกัน คือ Value-based กับ Policy-based และ Actor-critic ซึ่งเป็นรูปแบบที่ได้เปรียบกว่าทั้งสองรูปแบบก่อนหน้า กล่าวคือ ขณะที่รูปแบบ Value-based นั้นไม่สามารถประยุกต์เข้ากับการทำงานแบบต่อเนื่องได้ง่ายดายเท่าไร ส่วนรูปแบบ Actor-critic จะสามารถเรียนรู้ได้ทั้งการตัดสินใจทั้งแบบ Discrete และ Continuous เลย ดังภาพด้านล่าง ที่แสดงให้เห็นว่า Actor-critic agents ที่ประมาณ Value function และตัดสินใจการกระทำต่าง ๆ ได้ด้วยการประมาณ Policy ได้เลยในตัวเดียว

ที่มา Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks

สำหรับงานวิจัยฉบับนี้จึงเลือกใช้ RL framework เป็น Actor-critic PPO (Proximal Policy Optimization) algorithm ของ OpenAI (อ่านเพิ่มเติมได้ที่ [1707.06347] Proximal Policy Optimization Algorithms (arxiv.org)) สำหรับ PPO นี้นั้น Objective function จะมุ่งเน้นไปในการป้องกันการพังทลายของประสิทธิภาพของ Agent ขณะที่ทำการเรียนรู้ นอกจากนี้แล้ว Entropy ได้ถูกพิจารณาในฐานะ Loss function ของระบบด้วย รวมถึง Generalized estimation ได้ถูกใช้งานสำหรับโครงข่าย Reinforcement learning นี้ด้วยเช่นกัน

อ่านเพิ่มเติมเกี่ยวกับ Proximal Policy Optimization
[1707.06347] Proximal Policy Optimization Algorithms (arxiv.org)

ในภาพด้านล่างนี้แสดงให้เห็นถึงแผนภาพที่เป็นตัวแทนของ Flowsheets อันประกอบไปด้วย Feeds, Products และ Unit Operations ซึ่งจะแทนด้วย Node ที่มีข้อมูลว่าเป็น Unit operation ชนิดใด กับตัวแปรที่ใช้การออกแบบต่าง ๆ ขณะที่ Edge จะเป็นตัวแทนของ Process streams ต่าง ๆ อันมีข้อมูลทาง Thermodynamics ไม่ว่าจะเป็นอุณหภูมิ, Molar flow และ Molar fractions

โดยจะมี Intermediate flowsheets ที่มี node ที่ยังไม่ได้กำหนดค่าไว้ สำหรับถูกใช้ในการเพิ่ม Unit operations ใหม่ ๆ เข้ามาใน Flowsheet และเมื่อมีการเพิ่ม Unit operation เหล่านั้นเข้ามาใน Open streams จะนับว่าเป็น node ที่ยังไม่ได้กำหนดค่าไว้ หลังจากนั้นระบบก็จะหาตำแหน่งที่เป็นไปได้สำหรับ Unit operations ตัวที่ใหม่กว่ามาแทนที่ node เหล่านั้นนั่นเอง

หัวใจหลักของ Reinforcement learning ในงานวิจัยฉบับนี้จะมีรากฐานอยู่บน Actor-critic agent แบบผสมและเป็นลำดับขั้น ที่รวมเอา GNN (Graph Neural Network) หลาย ๆ อันเข้ากับ MLP (Multilayer Perceptron) โดยมีรายละเอียดดังนี้

1) Action space แบบผสมและเป็นลำดับขั้น

โครงสร้างของ Agent มีผลมาจาก Action space แบบผสมและเป็นลำดับขั้น โดยกระบวนการ Decision making เป็นดังภาพด้านล่าง ที่จะเริ่มจาก Intermediate flowsheet

กล่าวคือจะมีการแบ่งเป็น 3 ระดับ และรูปแบบการตัดสินใจ 2 แบบ ได้แก่

ระดับที่ 1

Agent จะทำการเลือกตำแหน่งภายใน Flowsheet ที่สามารถขยายได้ โดยมักจะเป็น Open streams ต่าง ๆ ที่เป็น Nodes ที่ไม่ได้กำหนดค่าไว้ (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 2

ต่อมา Agent จะทำการเลือก Unit operation อาทิ Heat exchanger, Reactor, Column รวมไปถึง Streams ต่าง ๆ ที่เป็นได้ทั้ง Product หรือ Recycle (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 3

หลังจากนั้น Agent จะเลือก Design variables สำหรับ Unit operations และ Streams นั้น ๆ (เป็นการตัดสินใจแบบ Continuous)

2) การใช้งาน GNNs ในการสร้าง Flowsheet fingerprints

สำหรับงานวิจัยฉบับนี้ คณะวิจัยได้ยกเอาการงานวิจัยของคุณ Schweidtmann และคณะ (อ่านเพิ่มเติม Graph Neural Networks for Prediction of Fuel Ignition Quality | Energy & Fuels (acs.org)) ที่ได้ประยุกต์เอา Graph Neural Network มาใช้ในการสร้าง Molecule fingerprints โดยใช้หลักการของ MPNN หรือ Message Passing Neural Network ที่เสนอโดยคุณ Gilmer และคณะ (อ่านเพิ่มเติม [1704.01212] Neural Message Passing for Quantum Chemistry (arxiv.org)) โดย GNN ของคณะวิจัยเป็นไปตามภาพด้านล่าง

-อ่านเพิ่มเติมเกี่ยวกับ Graph Neural Network
Graph Neural Networks for Prediction of Fuel Ignition Quality | Energy & Fuels (acs.org)
-อ่านเพิ่มเติมเกี่ยวกับ Message Passing Neural Network
[1704.01212] Neural Message Passing for Quantum Chemistry (arxiv.org)

จะเห็นได้ว่ากระบวนการที่ใช้ในการสร้าง Flowsheet graph ขึ้นมานั้น ขั้นแรก Flowsheet graph จะถูกสร้างผ่าน MPNN ที่เป็นการใช้งาน GCN หรือ Graph Convolutional Network ที่มีหลายชั้น เพื่อที่จะแลกเปลี่ยนข้อมูลระหว่างและปรับสถานะของ Nodes แต่ละตัว และเข้าสู่ขั้นตอน Readout ที่มีการใช้งาน Pooling function เพื่อสร้างข้อมูลออกมาเป็นรูปแบบ Vector ที่เป็น Flowsheet fingerprint นั่นเอง

หากเจาะลึกลงไปที่การทำงานของตัว GCN นั้นจะเป็นไปดังที่แสดงในภาพด้านล่าง ในการปรับสถานะของ Node สีน้ำเงิน จะมีการเก็บข้อมูลไว้ที่ Node สีเหลืองที่อยู่ติดกัน และ Edges ที่เกี่ยวข้องก็จะทำการประมวลผล และรวมข้อมูลเข้าไว้ด้วยกันและส่งไปยัง Message function M หลังจากนั้น Node ที่ทำการพิจารณาอยู่นั้นจะได้รับการปรับค่าผ่านข้อมูลภายใน Update function U โดยแต่ละชั้นของ GCN จะทำตามขั้นตอนนี้กับทุก ๆ Node ใน Graph เลย

3) โครงสร้างของ Agent แบบเป็นลำดับขั้น

สำหรับโครงสร้างของตัว Agent เองนั้นได้รับแนวทางมาจากงานของคุณ Fan และคณะ (อ่านเพิ่มเติม [1903.01344] Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space (arxiv.org)) ดังในหัวข้อ Action space แบบผสมและเป็นลำดับขั้น และเป็นไปดังภาพด้านล่าง

อ่านเพิ่มเติมเกี่ยวกับ Hybrid Actor-Critic
[1903.01344] Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space (arxiv.org)

ในส่วนด้านบนของภาพนั้นเป็นส่วนที่ใช้ในการสร้าง Fingerprint ออกมา ซึ่งเป็นไปตามภาพที่ 4 หัวข้อ การใช้งาน GNNs ในการสร้าง Flowsheet fingerprints โดยหลังจากที่สร้าง Fingerprint ออกมาได้แล้วนั้น ข้อมูลจะถูกส่งไปที่ Actor ในส่วนด้านล่างของภาพ ต่อมาก็จะมีการประมวลขั้นต่อไปด้วย GCN ชั้นอื่น ๆ แบ่งออกเป็น 3 ระดับ และ 2 รูปแบบการตัดสินใจ ดังนี้

ระดับที่ 1

ขั้นแรกของส่วน Actor จะเป็นการเลือก Open stream เพื่อขยาย Flowsheet ต่อไป หลังจากที่ GCN ส่วนแรกทำการตัดสินไปแล้วนั้น จำนวน Feature ของ Node จะลดเหลือเพียงแค่อันเดียวขณะที่อันอื่น ๆ จะถูกกรองออกไป โดย Feature ที่ถูกเลือกของแต่ละ Node ใน GCN ชั้นสุดท้ายจะแสดงถึงความเป็นไปได้ในการถูกเลือกเป็นตำแหน่งของ Unit operation อันใหม่ ก่อนที่จะส่งไปยังระดับที่ 2 และ 3 ต่อไป (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 2

สำหรับระดับที่ 2 จะประกอบไปด้วย MLP ที่จะส่งค่ากลับมาเป็นความน่าจะเป็นสำหรับแต่ละ Unit operation ที่ถูกเลือก โดย MLP ที่เป็นของ Unit operation แต่ละชนิดนั้นจะถูกตั้งให้เป็น Actor สำหรับระดับที่ 3 ต่อไป (เป็นการตัดสินใจแบบ Discrete)

ระดับที่ 3

MLP ที่อยู่ในระดับนี้จะนำเอา Vector ที่ได้มาจาก Flowsheet fingerprint และ ID ของตำแหน่ง มาเป็นข้อมูลขาเข้าของมัน โดยจะคืนกลับข้อมูลขาออกออกมาเป็นตัวแปรสองตัวได้แก่ α และ β ซึ่งถูกอธิบายในรูปแบบของ Beta distribution (เป็นการตัดสินใจแบบ Continuous)

สำหรับส่วน Critic ที่ใช้ในการประมาณสถานะดั้งเดิม จะอยู่ที่มุมบนด้านขวาของภาพที่ 6 โดยเมื่อได้รับ Flowsheet fingerprint จากส่วนการสร้าง Fingerprint ค่า Reward (ตาม MDP หรือ Markov Decision Process) ที่ได้จากการประมาณจะถูกส่งไปยัง Agent ในการจบการประมวลผลในแต่ละ Episode โดยคณะวิจัยได้มีการใช้งานค่าที่นำไปประมวลผลนั้นโดยอ้างอิงมาจาก Generalized advantage estimation จากงานวิจัยของคุณ Schulman และคณะ (อ่านเพิ่มเติม [1506.02438] High-Dimensional Continuous Control Using Generalized Advantage Estimation (arxiv.org)) โดยมันจะช่วยบอกได้ว่า Action ที่กระทำลงไปนั้นดีหรือแย่กว่าที่คาดการณ์ไว้ด้วยการเทียบค่าที่ได้จาก Reward ที่แท้จริง

อ่านเพิ่มเติมเกี่ยวกับ Generalized advantage estimation
[1506.02438] High-Dimensional Continuous Control Using Generalized Advantage Estimation (arxiv.org)

สำหรับปฏิสัมพันธ์ระหว่าง Actor-critic agent กับสิ่งแวดล้อมนั้นจะถูกอธิบายด้วย Algorithm ด้านล่างนี้ ซึ่งเป็น Pseudocode โดยสิ่งแวดล้อมเริ่มต้นที่ Feed ส่วน Flowsheet จะถูกสร้างขึ้นมาระหว่างทำการคำนวณ โดย Agent จะสังเกตสถานะปัจจุบัน (s) ในสิ่งแวดล้อมและเลือกการกระทำ (a) จากระดับการตัดสินใจทั้งสามที่กล่าวไปก่อนหน้านี้ด้วยการสุ่มตัวอย่าง หลังจากนั้น Agent จะส่งค่าคืนกลับมาเป็นความน่าจะเป็นและการกระทำที่ถูกเลือกในรูปแบบของค่าสถานะ (v)

หลังจากที่การกระทำได้ถูกใช้กับสิ่งแวดล้อมไปแล้ว สถานะขั้นต่อไป (s’) จะถูกคำนวณผ่านการจำลอง Flowsheet ที่ถูกขยาย นอกจากนี้แล้วสิ่งแวดล้อมจะทำการตรวจสอบ Open streams ใด ๆ ก็ตามที่เหลืออยู่ใน Flowsheet รวมไปถึงการบ่งชี้ไปยังรอบการคำนวณที่ยังไม่เสร็จสิ้น เนื่องจากการถ่วงค่าน้ำหนักของ Agent จะเริ่มขึ้นโดยสุ่ม ในการ Training รอบแรก ๆ จะให้ผลออกมาเป็น Flowsheet ขนาดใหญ่มากออกมา ดังนั้นจำนวนของ Unit ต่าง ๆ ภายในระบบจะถูกกำหนดไว้ไม่ให้เกิน 25 หน่วย และเมื่อหากมี Flowsheet มีจำนวนเกินจากนี้ไปจะนับว่า Open streams ทั้งหมดเป็นสายของ Products ต่าง ๆ ไป

นอกจากนี้แล้ว สิ่งแวดล้อมจะคำนวณ Reward โดยขึ้นอยู่กับ Flowsheet ไม่ว่าจะถูกคำนวณออกมาสมบูรณ์หรือไม่ก็ตาม หาก Net cash flow มีค่าเป็นบวก จะทำให้ Reward มีค่าเท่ากับ Net cash flows ขณะเดียวกันถ้าเป็นลบ จะมีให้มีค่าเท่ากับ Reward หารด้วย 10

ในส่วนของการ Training ทั้งวิธีการที่คณะวิจัยได้นำเสนอและการจำลองแบบ Flowsheet จะทำด้วยภาษา Python เวอร์ชั่น 3.9 โดยได้หยิบยกขั้นตอนการ Training มาจาก PPO หรือ Proximal Policy Optimization โดย OpenAI ดังที่กล่าวไปในช่วงแรกของสรุปที่กล่าว RL framework นั่นเอง

การนำ RL ไปใช้กับกระบวนการทางเคมี

กรณีศึกษาที่ใช้จะเป็นกระบวนการผลิต Methyl Acetate ผ่านทางการจำลองกระบวนการบนโปรแกรม DWSIM โดยมีการใช้งาน Unit operation ที่นับเป็นตัวแปร Action ดังนี้

1. Reactor แบบ Plug flow reactor หรือ PFR โดยกำหนดขนาดตั้งแต่ 3–10 เมตร (ขนาดเป็น Continuous decision process ลำดับที่ 3 ของ RL Model) โดยมีปฏิกิริยาเคมีแบบผันกลับได้ดังนี้

2. Distillation column โดยกำหนด Distillate to feed ratio หรือ D/F ratio มีค่าตั้งแต่ 0.4–0.6 (D/F ratio เป็น Continuous decision process ลำดับที่ 3 ของ RL Model) และตัวแปรอื่น ๆ ที่สามารถปรับเปลี่ยนค่าได้ก็คือจำนวนชั้นของคอลัมน์และ Reflux ratio ที่จะมีค่า 35 และ 1.5 ตามลำดับ

3. Heat exchanger โดยกำหนดให้อุณหภูมิขาออกมีค่าตั้งแต่ 278.15–330.05 K (Outlet temperature เป็น Continuous decision process ลำดับที่ 3 ของ RL Model)

4. Recycle process อันประกอบไปด้วย Splitter และ Mixer โดยส่วนแรกจะแยก Recycle stream กับ Purge ออกจากกัน และส่วนที่สองจะรวม Recycled stream เข้า Feed stream

สำหรับตัวแปร Reward จะใช้การคำนวณความเป็นไปทางเศรษฐศาสตร์ของ Flowsheet ที่ถูกทำออกมา พร้อมทั้งสอน RL model ให้ทำ Action ที่เป็นไปได้ดังสมการด้านล่าง

โดย

Pproduct = รายได้ของผลิตภัณฑ์ที่ถูกจำหน่ายไป

Cfeed = ต้นทุนของ Feed

Coperation = ค่าใช้จ่ายของค่าดำเนินการ

Cinvest = ค่าใช้จ่ายในการลงทุนทั้งหมด พร้อมทั้งคูณกับ factor 0.15 หรือ 10 ในกรณีได้ค่า Reward ติดลบออกมา

จากผลลัพธ์ที่ได้ออกมาระหว่างการที่ใช้และไม่ใช้ Transfer Learning เข้ากับ RL model พบว่าแบบที่ไม่มี Transfer learning ใช้เวลาในการคำนวณหา Reward จำนวน 10000 ครั้งเป็นเวลากว่า 72 ชั่วโมง ขณะที่แบบที่ใช้ Transfer learning ใช้เวลาเพียง 2 ชั่วโมงในการคำนวณหา Reward จำนวนที่เท่ากัน ดังภาพด้านล่าง

ที่มา Transfer learning for process design with reinforcement learning

ความเห็นจากการวิเคราะห์ของผม เข้าใจว่า RL model ของคณะวิจัยที่มีการใช้งาน Transfer learning ด้วย จะมีการส่งต่อค่าที่คำนวณได้ครั้งก่อนไปยังการคำนวณครั้งถัดไปผ่านค่า Reward ที่ได้ออกมาในแต่ละครั้ง และคำนวณต่อไปเรื่อยจนให้ผลที่พึงพอใจได้ในรอบการคำนวณที่ต่ำกว่า เมื่อเทียบกับ RL mode ที่ไม่มี Transfer learning จะไม่มีการนำค่าในการคำนวณครั้งก่อนมาใช้คำนวณด้วย

โดย Flowsheet ที่ดีที่สุดของ RL model แบบไม่มี Transfer learning เป็นดังนี้

ขณะที่ Flowsheet ที่ดีที่สุดที่ถูกสร้างออกมาหลังจาก RL model แบบที่ใช้ Transfer learning จะเป็นไปดังภาพด้านล่างนี้

หากพิจารณาเฉพาะ Flowsheet แบบหลังนี้จะเริ่มต้นที่ Feed (F1) เข้าไปในเตาปฏิกรณ์ทั้งหมด 3 ตัว ได้แก่ R1, R2 และ R3 ตามลำดับ ซึ่งจะทำให้ได้สารผลิตภัณฑ์อย่าง Methyl acetate และน้ำผ่านทางปฏิกิริยา Esterification ออกมานั่นเอง หลังจากนั้น จะนำไปแยกผ่าน Distillation column แรก (C1) จะได้ Top product ที่เข้าไปสู่ Heat exchanger ตัวแรก (Hex1) ได้ออกมาเป็นสารผลิตภัณฑ์แรก (P1) ที่ประกอบไปด้วย Methyl acetate เข้มข้นและ Residues ปะปนมา ขณะที่ Bottom product จาก Distillation column แรกจะเข้าสู่ Distillation column อันที่สอง (C2) เพื่อที่จะได้ Top product เป็นน้ำบริสุทธิ์ (P2) และ Bottom product เป็นสารผสมระหว่าง Methanol และน้ำ (P3) ซึ่งจะถูกนำกลับไปเข้ารวมกับ F1 อีกครั้งกว่าร้อยละ 90

อย่างไรก็ดี โมเดลนี้ยังมีข้อจำกัดจำนวน 3 ข้อ ได้แก่

1. ผลที่ได้จาก RL model นี้นั้นยังถูกใช้งานจริงยาก เนื่องจากกระบวนการดังกล่าวจะใช้ Reactive distillation ในการผลิตเป็นหลัก ซึ่งในโมเดลนี้ไม่ได้รวม Unit operation ดังกล่าวลงไปด้วย และ

2. ขนาดของ PFR ถูกจำกัดสูงสุดไว้เพียง 10 เมตร ซึ่งการใช้งานจริงขนาดความยาวเพียงเท่านี้ไม่เพียงพอที่จะทำให้เกิดปฏิกิริยาได้อย่างสมบูรณ์ได้

3. Heat exchanger (Hex1) ถูกเพิ่มเข้ามาอย่างไม่จำเป็น เนื่องจากโมเดลอาจเข้าใจว่า Heat exchanger มีค่าใช้จ่ายในการดำเนินการที่ต่ำ

โดยสรุปตามความเห็นของผม ผมคิดว่าการใช้งาน Reinforcement Learning ช่วยในการออกแบบกระบวนการทางเคมีนั้นสามารถทำได้ และช่วยร่นระยะเวลาในการออกแบบกระบวนการได้มาก อย่างไรก็ดีจากข้อจำกัดของโมเดลดังกล่าวที่ทางคณะวิจัยได้ตรวจพบนั้น อาจแสดงให้เห็นว่า ต้องมีการทำงานควบคู่ระหว่างผู้เขี่ยวชาญในการออกแบบกระบวนการและผู้จัดทำโมเดลของปัญญาประดิษฐ์ดังกล่าวอย่างใกล้ชิด และแก้ไขข้อจำกัดต่าง ๆ ก่อนที่จะนำผลลัพธ์ที่น่าสนใจมากกว่านี้ไปทดสอบผ่านการจำลองอีกครั้ง หรือประยุกต์ใช้งานได้จริงต่อไปในอนาคตได้ครับ

เอกสารอ้างอิง

[1] [2302.03375] Transfer learning for process design with reinforcement learning (arxiv.org)

[2] [2207.12051] Flowsheet synthesis through hierarchical reinforcement learning and graph neural networks (arxiv.org)