Blog
설비 전조 감지 기반 PM 전환 보조 AI Agent
비정기 PM 상황에서 반복되는 1차 진단, 유사 사례 검색, 점검 항목 정리 과정을 자동화하고 표준화하기 위한 AI 활용 경험 정리입니다.
Overview
이 프로젝트의 목표는 설비 고장을 완전히 예측하는 것이 아니다. 반도체 설비 센서 데이터에서 이상 전조를 감지하고, 해당 전조와 관련된 과거 유사 이력 및 점검 SOP를 검색하여 엔지니어가 검토할 수 있는 PM 점검 초안을 생성하는 것이다.
설비 전조 신호가 나타나면 통계적으로 무엇이 얼마나 이탈했는지 분석하고, 관련 SOP와 과거 이력을 검색해 근거가 포함된 PM 점검 초안을 생성한다.
Problem
반도체 제조 현장에서 비정기 PM은 설비 다운타임, 생산성 저하, 수율 리스크로 이어질 수 있다. 설비 이상이 발생했을 때 엔지니어는 다음 업무를 반복적으로 수행한다.
- 어떤 센서가 평소와 다르게 움직였는지 확인한다.
- 해당 이상이 어떤 부품이나 모듈과 관련 있는지 추정한다.
- 과거 유사 이력과 점검 SOP를 검색한다.
- 우선 점검 항목을 정리한다.
- PM 필요 여부 판단을 위한 초안을 작성한다.
이 과정은 숙련 엔지니어의 경험과 문서 검색 능력에 크게 의존한다. 따라서 저연차 엔지니어도 근거 기반으로 빠르게 1차 판단을 시작할 수 있도록, 전조 감지 결과와 내부 문서를 연결하는 보조 도구가 필요하다고 판단했다.
Data
실험 데이터로는 PHM 2018 Data Challenge의 반도체 설비 데이터를 사용한다. 이 데이터는 반도체 장비 센서 시계열, 장비 recipe 정보, 고장 모드, time-to-failure 정보, 고장 전 센서 변화 패턴을 포함하므로 방법론 검증에 적합하다.
다만 이 데이터는 실제 사내 FDC, MES, PM 이력, SOP를 대체하지 않는다. 프로젝트에서는 실제 배포용 데이터가 아니라 방법론 검증용 공개 데이터로 사용한다.
| Project Data | Field Data |
|---|---|
| PHM sensor data | FDC or equipment sensor logs |
| Similar history examples | Trouble history or PM history |
| Public manual-based SOP | Equipment SOP or inspection manual |
| Failure-mode label | Equipment alarm or engineer judgment history |
Process
전체 과정은 전조 감지, 증상 구조화, 문서 검색, PM 초안 생성, 엔지니어 검토, 조치 결과 기록 순서로 구성된다.
1. Sensor Anomaly Detection
먼저 recipe별 정상 baseline을 구성한다. 같은 압력이나 유량 값이라도 recipe에 따라 정상 범위가 달라질 수 있기 때문이다.
- 정상 평균 대비 이탈 정도
- 표준편차 기준 이탈 정도
- 최근 window에서의 변화율
- 압력, 유량, 온도 등 다변량 조합
- 고장 시점 대비 감지 리드타임
이 단계의 목표는 단순히 이상이라고 판단하는 것이 아니라, 검색과 리포트 생성에 사용할 수 있는 구조화된 전조 정보를 만드는 것이다.
2. Deterministic Keyword Mapping
검색 키워드는 LLM이 자유롭게 생성하지 않도록 한다. 전조 분석 결과를 결정론적 룰로 검색 키워드에 매핑해, 실제 데이터에 없는 키워드를 만들어내는 문제를 줄인다.
| Anomaly Signal | Search Keywords |
|---|---|
| pressure low | pressure low, 압력 저하, pressure valve |
| coolant flow high | coolant flow, flow abnormal, 유량 이상 |
| temperature rise | temperature rise, overheating, cooling issue |
| FlowCool anomaly | FlowCool, cooling line, chiller, coolant |
3. Hybrid RAG Search
전조 키워드를 바탕으로 과거 유사 이력과 점검 SOP를 검색한다. 검색 방식은 BM25 키워드 검색과 임베딩 기반 의미 검색을 결합한다.
반도체 설비 문서에는 부품명, 센서명, 설비 코드, 약어, recipe명, error code가 많다. 부품명과 약어는 키워드 검색이 강하고, 표현은 다르지만 의미가 유사한 문서는 임베딩 검색이 강하다.
4. PM Draft Generation
AI Agent는 최종 판단자가 아니라 근거 기반 초안 작성자다. 전조 분석 결과를 입력받고, 관련 키워드로 문서를 검색한 뒤, 검색 점수가 충분한 경우에만 근거 문서 기반 PM 점검 초안을 작성한다.
Agent Boundary
이 구조에서 LLM은 마지막 초안 생성 단계에만 사용된다. LLM이 하지 않는 일은 다음과 같다.
- 이상 감지 판단
- 검색 키워드 임의 생성
- 고장 원인 자유 추론
- RUL 예측
- 최종 PM 여부 결정
LLM의 개입 지점을 제한함으로써 hallucination 가능성을 줄이고, 엔지니어가 검증 가능한 형태로 결과를 확인할 수 있도록 한다.
Output
최종 결과물은 챗봇 답변이 아니라 PM 점검 초안 리포트다. 초안에는 전조 요약, 의심 부위, 우선 점검 항목, 과거 유사 이력, 근거 문서, 추가 확인 필요 사항, 조치 결과 기록란이 포함된다.
중요한 점은 초안에 항상 근거 문서가 포함된다는 것이다. 근거 문서가 없는 항목은 추가 확인 필요로 분리한다.
Hallucination Control
Hallucination 방지는 복잡한 프레임워크보다 구조적으로 해결한다.
- LLM은 검색된 문서 조각에 있는 내용만 사용한다.
- 검색 결과의 유사도 점수가 낮으면 초안을 생성하지 않는다.
- 전조 요약, 의심 부위, 점검 항목, 유사 이력, 근거 문서를 항목별로 나누어 생성한다.
- LLM은 고장 원인을 새로 추론하지 않고, 통계 분석 결과와 검색된 근거 문서를 정리한다.
Validation
검증은 전조 감지, 검색, 생성 결과, 실패 유도 테스트로 나누어 설계한다.
- 전조 감지는 단변량 규칙 알람을 baseline으로 두고 recipe-aware feature 모델과 비교한다.
- 검색은 hit@1, hit@3, hit@5, MRR로 BM25, 임베딩 검색, 하이브리드 검색을 비교한다.
- 생성 결과는 모든 사실 문장을 인용 문서와 대조해 근거 있음, 근거 없음, 출처 오표기로 분류한다.
- 지식베이스에 없는 고장 시나리오를 입력해 모르는 경우 멈추는지 확인한다.
Takeaways
- 단순한 ChatGPT 활용이 아니라 실제 제조 pain point를 기준으로 문제를 정의한다.
- 공개 반도체 장비 데이터를 사용해 전조 감지 방법론을 검증한다.
- LLM을 최종 판단자가 아니라 근거 기반 초안 작성자로 제한한다.
- RAG를 통해 SOP와 유사 이력을 연결한다.
- 검색 점수 게이트로 근거가 부족하면 답하지 않게 한다.
- 엔지니어 승인과 조치 결과 기록을 포함해 human-in-the-loop 구조를 유지한다.
측정하고, 근거를 대고, 모르면 멈춘다.