Garbage In Garbage Out: 데이터 무결성에서 답을 찾다

"데이터 무결성 검증을 위해, 과도 상태 데이터를 걸러내고 정상 상태 데이터로 모델의 신뢰성을 확보하는 법"우리가 흔히 사용하는 계산기에는 한 가지 전제가 있습니다. 바로 "입력값은 옳다"는 것입니다. 사용자가 '1+1' 대신 실수로 '1+2'를 입력하면, 계산기는 '3'이라는 계산 결과를 내놓습니다. 계산기의 잘못일까요? 아닙니다. 계산기는 사칙연산의 논리대로 완벽하게 작동했을 뿐입니다.하지만 이 단순한 상황이 수천억 원 규모의 화학 플랜트에 적용이 되면 이야기는 달라집니다. 많은 경우 공정 시뮬레이션은 대부분 '명확한 조건(Clearly Defined Conditions)'과 '기준'을 상정하고, 입력의 오류가 없다는 가정하에 설계 목적의 모델(Design Model)을 만드는 것입니다.이 이상적인 계산기를 현실의 운전(Operation)상황에 적용했을 때, 계산 결과와 실제 운전 사이에는 수용할 수 없는 차이가 발생합니다. 설계 목적의 모델(Design Model)에 현장의 불완전한 데이터를 그대로 입력하면, 아무리 정교한 시뮬레이션도 엉뚱한 결과를 내놓을 가능성이 높습니다. 즉, Garbage In, Garbage Out 문제를 막기 위해서는 무엇보다 '데이터 무결성(Data Integrity)'이 선행되어야 합니다.오늘 소개할 Company H의 사례는, 현실의 ‘변동성 높은 데이터’를 ‘이상적인 시뮬레이터’에 무리하게 적용하면서 발생한 3년의 기술적 난제, 그리고 이를 데이터 무결성(Data Integrity) 검증이라는 새로운 관점으로 해결한 시마크로의 이야기입니다.

The Challenge: 데이터 무결성(Data Integrity) 부재가 낳은 3년의 교착 상태

동남아시아의 메이저 폴리머 생산 기업인 Company H는 연간 50여 종 이상의 다양한 그레이드(Grade) 제품을 생산하는 첨단 공정을 운영하고 있습니다. 이들은 공정 효율 극대화와 디지털 전환(DX)을 위해 글로벌 시뮬레이션 선도 기업과 파트너십을 맺고 고도화된 모델링 프로젝트를 시작했습니다.하지만 3년이라는 긴 시간이 지났음에도 불구하고, 시뮬레이션 모델은 50여종의 모든 제품에 대해 모델의 정확성 측면에서 일관성 있는 결과를 제시하지 못했습니다. 모델 성능 개선을 위한 아이디어의 부재로, 모델의 정확도를 둘러싼 양사의 기술적 이견이 좁혀지지 않는 답답한 상황이 지속되었습니다.고객사는 "개발된 모델에 문제가 있다"라고 생각했고, 벤더사는 "공정 데이터의 신뢰도에 의문이 있다"고 반박할 수밖에 없는 상황. 도대체 무엇이 문제였을까요?

Screening of the noise characteristics of 27 KPVs.Red horizontal line indicates CV=0.05.

문제는 바로 "시뮬레이터는 입력된 데이터의 품질(Quality)을 스스로 판단하지 않는다"는 점이었습니다.Company H의 공정은 제품 교체(Grade Change)가 매우 빈번하게 일어나는 특성을 가지고 있습니다. 거의 매주 생산 제품이 바뀌는 탓에 공정 데이터는 과도 상태(transient state)에서 변동하고 있었고, 안정된 상태(Steady-state)를 유지하는 구간이 극히 드물었습니다. 기존 프로젝트 팀은 이 과도 상태(Transient state)의 평균 데이터를 모델에 입력했습니다. 마치 파도가 심하게 치는 바다의 평균 수면 높이를 재서 "바다가 잔잔하다"고 가정하고 배를 띄운 꼴이었습니다.과도 상태 데이터를 평균 내어 만든 '유사 안정 상태 (pseudo steady-state)'의 데이터. 이것이 시뮬레이터라는 계산기에 입력되니, 결과값과 현실 사이에 수용이 어려운 괴리가 발생하는 것은 필연적이었습니다.

Screening of the noise characteristics of 68 Sub-datasets. Red horizontal line indicates CV=0.05.

Solution Step 1: 과도 상태(Transient-state) 제거와 데이터 선별(Data Discrimination)

시마크로는 프로젝트에 투입되자마자 질문을 바꿨습니다. "모델 파라미터를 어떻게 튜닝할까?"라는 질문 대신, "지금 이 데이터가 시뮬레이션의 입력값으로 유효한가?"를 먼저 검증하기로 했습니다.시마크로의 ProcessMetaverse™ Stability Analysis 에이전트를 사용해 변동성이 매우 큰 공장의 약 1년 치 운전 데이터를 대상으로 종합적인 기술 검토를 수행하였으며, 각 제품(grade)을 진정으로 대표할 수 있는 안정 운전(steady-state) 구간을 찾아내고자 했습니다. 변동계수(CV) 0.05(5%)를 통계적 안정성 기준으로 적용해 신뢰할 수 있는 운전 구간을 선별했으며, 그 결과는 우리의 기대를 완전히 뛰어넘는 명확한 성공이었습니다.기존에 고객사와 벤더사가 '정상 운전(Stable Operation)'으로 간주했던 다수 구간이 준과도상태(Quasi-transient state)로 이 기준을 통과하지 못했습니다. 즉, 모델링에 사용할 수 있는 '깨끗한 데이터'가 사실상 전무했던 것입니다.정상 상태처럼 보이는 과도 상태 구간의 데이터를 사용하는 것은 '모래 위에 성 쌓기'와 같습니다. 시마크로는 ProcessMetaverse™의 고급 데이터 분석 AI 에이전트 기능을 적용하였습니다. 이전 프로젝트 팀에서 선정한 데이터셋를 맹신하는 대신 노이즈 특성 분석(Noise Characterization)을 통해 전체 데이터 중 정상상태 모델링에 적합한 데이터를 선별(Screening)하고, 변동성이 심한 구간에서 ‘안정적 운전 구간(Stable Operating Windows)’를 다시 정밀하게 추출했습니다.수많은 유사 정상상태 (Pseudo-steady state)구간에서 다변수에 대한 데이터가 진정한 정상 상태를 유지하는 좁은 구간들을 찾아내고, 그 구간의 데이터만을 정밀하게 추출해 냈습니다. 이것은 일반 데이터 클렌징(Cleansing)을 넘어선, 데이터 선별(Discrimination) 과정이었습니다.

Figure 4. Data Discrimination: Extracting Stable Operating Windows by AI Agent.

Solution Step 2: 데이터 정합성(Data Reconciliation)으로 물리적 모순 해결

유효한 구간을 찾아냈다고 해서 끝이 아닙니다. 화학 공장의 센서들은 완벽하지 않습니다. 예를 들어, 물질수지(Mass Balance) 식에서 A + B = C가 되어야 합니다. 하지만 실제 계측기에서는 A=1, B=2인데 C=3.5라고 측정되는 경우가 생겨납니다.실시간 디지털 트윈(Application) 또는 대량의 운전 데이터를 다루는 경우 데이터 정합성 보정은 반드시 수행되어야 하는 과정입니다. 리콘실레이션은 데이터 간의 통계적 모순을 찾아내고, 비교하고 정렬하여 데이터의 정확성, 일관성 및 무결성을 보장하는 프로세스입니다. 시마크로는 ProcessMetaverse™를 통해 시간의 흐름에 따른 데이터의 인과관계를 분석하고, 모순된 데이터들을 보정하여 물리적으로 타당한 입력 데이터 세트를 완성했습니다.

Technology Deep Dive : 블랙박스를 여는 열쇠, MWD Deconvolution

데이터 선별과 리콘실레이션이 '입력값'에 대한 검증이었다면, ‘반응모델 구조’에 대한 검증은 훨씬 더 깊이 있는 검토와 분석이 필요했습니다. 단순히 유량이나 온도 같은 측정 가능한 변수(measurable Variables)를 맞추는 것만으로는 부족했습니다. 고객사가 원하는 것은 결국 고분자(Polymer) 제품의 물성 예측이었기 때문입니다.시마크로는 고분자 물성을 결정하는 핵심 속성인 분자량 분포(MWD, Molecular Weight Distribution)의 정확한 재현을 위해, 모든 그레이드에 대한 실험 데이터(Lab Data)를 사용하여 기존 중합 반응(Kinetic)모델을 검증했습니다. 기존 시뮬레이션의 중합반응 모델은 부족한 촉매 활성자리 (site)를 사용하여 낮은 정확도의 분자량 분포를 보여주었다면, 시마크로는 활성 자리를 증가시켜 보다 정확한 분자량 분포를 위한 모델로 전환하였습니다.이를 위해 PMv 캔버스에서 MWD Deconvolution(분자량 분포 분석) 기법을 구현하고 Log-normal 및 Schulz-Zimm 분포 함수를 활용하여, 반응기 내부의 촉매 활성도와 폴리머 사슬 성장 과정을 정밀하게 역추적(Reverse-engineering)했습니다.이는 마치 완성된 요리의 맛만으로 레시피를 추측하는 것이 아니라, 반응기 내부의 조리 과정(Reaction History)을 투명하게 들여다보며 반응물, 첨가제의 투입 시점과 반응 경로를 재현하는 것과 같습니다.

The Result: 데이터 무결성이 검증된 신뢰할 수 있는 모델을 확보하다

결과는 명확했습니다. 시마크로가 ProcessMetaverse™를 활용해 분석하고 보정한 데이터를 사용하여 중합 반응 모델을 수정한 결과, 실험 데이터와 시뮬레이션 결과 간의 결정 계수 (Coefficient of Determination, R2)가 프로젝트의 최소 수용 기준을 상회하는 높은 상관관계를 기록했습니다.이는 단순히 "수용 가능하다"는 과거의 기준과 완전히 다릅니다. 시마크로는 ProcessMetaverse™를 통해 95% 신뢰 구간(Confidence Interval) 내에서 모델이 실제 공정을 정확히 설명하고 있음을 증명해 냈습니다.3년간 제자리걸음이었던 프로젝트가, 데이터에 대한 관점을 바꾸자 비로소 앞으로 나아가기 시작했습니다. 시뮬레이션 파라미터 튜닝 중심의 접근에서 입력 데이터 무결성 검증 중심의 관점으로 프로젝트를 바라보자, 비로소 실시간 Operational Digital Twin으로 발전할 수 있었습니다.

Screenshot of Python Editor in ProcessMetaverse™

Operational Digital Twin으로 가는 길

Company H 프로젝트가 우리에게 주는 시사점은 명확합니다.시뮬레이션이 ‘설계의 도구’였다면, 디지털 트윈은 ‘운전의 도구’입니다.미래를 계산하던 기술에서, 현재를 최적화하는 기술로 중심이 이동하고 있습니다.현장의 데이터는 불완전합니다. 그 현실을 외면한 채, "데이터는 맞겠지"라는 가정으로 접근한다면, 어떤 시뮬레이션 소프트웨어도 제 역할을 하기 어렵습니다.불완전한 현실 데이터 속에서 유효한 신호를 판별(Discrimination)하고, 모순된 값을 보정(Reconciliation)할 수 있는 기술력. 그리고 고분자 반응 모델의 재해석을 통한 높은 재현성의 달성. 그것이 바로 글로벌 선도 기업들이 수년간 풀지 못한 난제를 시마크로가 해결할 수 있었던 핵심 경쟁력입니다.이러한 접근 방식은 단순히 모델에 대한 신뢰를 회복하는 데 그치지 않고, 실시간 최적화, 향후 AI 모델 적용, 그리고 플랜트 전반의 운영 최적화를 위한 확장 가능한 기반을 고객에게 제공했습니다.시마크로는 이제 설계만을 위한 모델링을 넘어, AI Agent에 의한 실시간 데이터 분석 및 정제에 기반한 진정한 Operational Digital Twin의 시대를 열어가고 있습니다.

관련 아티클

보스턴과 서울에 본사를 둔 시마크로는 지난 2018년부터 40개 기업에서 90개 이상의 상업적 모델링 프로젝트를 완료했습니다. AspenTech, Emerson, OLI 등 글로벌 기술 리더들과 협력하며 공정 산업의 디지털 혁신 발전에 전념하고 있습니다.SIMACRO​ 소개Designer

Previous
Previous

폴리머 OTS: 반응기 모델링의 한계를 넘다

Next
Next

그린 수소 생산 복잡성에 대한 이해 — Mirroring Digital Twin