적대적 검증 루프

미디어 인텔 파이프라인 — 만들고, 무자비하게 비판받고, 고치는 과정의 기록

2026-06-10 · BE/GEV 상태카드 파이프라인 · 검증 에이전트 4회 투입

모든 산출물은 적대적 감시자(별도 AI 에이전트)에게 넘겨 "틀린 것을 찾아라"는 프레임으로 검증했다. 감시자의 임무는 칭찬이 아니라 결론을 무너뜨릴 결함을 찾는 것. 아래는 그 비판이 실제로 산출물을 어떻게 바꿨는지의 기록이다.

만든 것 비판 수정 / 결과

경쟁 차원이 BE 전용 하드코딩이었다

Iter 28 · 구조 검증

만든 것

BE 카드가 8.0 찍은 게 진짜 파이프라인인지, BE 전용 하드코딩 덕인지 보려고 두꺼운 종목(GEV)·얇은 종목(파이오링크)으로 카드를 재현.

비판

경쟁 차원의 진화 문구가 "GE Vernova·Siemens·Delta SOFC"로 통째 하드코딩되어 GEV(자기가 GE Vernova인데!)·파이오링크(보안업체)에까지 그대로 누출. one_liner 프롬프트엔 "지금 BE는 한마디로" 리터럴이 박혀 있었다.

수정 · 결과

경쟁을 데이터 기반으로 재작성(전문가 인터뷰 제목의 경쟁신호 + bear 논쟁 + 슬랙, 전부 종목별 파라미터화). one_liner도 종목 변수화. BE 8 유지 · GEV 누출 0 · 파이오링크는 8개 차원 전부 "없는 차원"으로 정직하게 비움(환각 0).

"이 백테스트로는 최선을 못 고른다"

Iter 30 · 모델 10종 백테스트

만든 것

추출 엔진 10종(flash-lite·Gemini Pro·GPT-4o·Claude·2-pass·few-shot·업스케일·타일·앙상블 등)을 골든셋 53 figure로 recall 백테스트. M6(few-shot)가 1위로 나옴.

비판 (감시자 #1)

"이 백테스트로는 최선을 못 고른다. recall이 다 0.96+인 건 방법론이 좋아서가 아니라 골든셋을 쉽게 깎았기 때문이다. 실질 변별은 이미지 단 1장에 의존(n=1). 그리고 precision(환각)을 안 쟀다 — 카드를 오염시키는 바로 그 축이다. M9 voting은 구현조차 안 됐다(합집합 stub). M6 채택은 부당."

수정 · 결과

M9 실제 voting 구현, 엔티티 별칭·단위 정확도·확장비 추가, raw 저장. 1차 백테스트를 "불합격" 처리하고 precision 측정을 새로 붙임. 비판이 결론을 보류시킴.

앙상블이 환각을 6배로 늘렸다

Iter 30 · precision 전수 심판

검증 (감시자 #2 · 원본 이미지 전수 대조)

방법	환각·오독률	판정
M1 flash-lite (현행)	1.8%	precision 승자
M6 few-shot	2.4%	M1급 + 표 누락컬럼 회수
M9 self-consistency 앙상블	10.9%	최악 — 체계적 환각

"M9의 ext 폭증은 robust가 아니라 인접 셀·분기 값을 복붙한 carry-over 환각이다. 잘못된 종목·분기에 값이 귀속된다 — 90K 스케일에서 silent corruption."

결과

현행 flash-lite 단일호출이 실제 최선임을 확정. "더 정교한 게 더 좋다"는 직관이 틀렸음을 데이터로 증명 — 비싼 앙상블이 오히려 위험.

self-check 보충분의 정체 = 중복

Iter 31 · OCR 방식 8종

만든 것

모델은 flash-lite로 고정하고 "어떻게 OCR하느냐" 8방식 백테스트 (통짜·구조복원·2-pass·좌표 grounding·self-check·타입 라우팅·high-effort CoT).

비판 / 규명

self-check(W6)가 figure를 90→108개로 폭증시킴. 진짜 누락 보완인지 추적 → 추가분이 거의 전부 중복(18개) + 오독(1개), 진짜 보완 0. 구조화·좌표 방식은 차트에서 출력이 깨져 불안정(recall 0.37~0.57).

결과

통짜 단일호출이 OCR 방식 중에서도 최선임을 재확인. 모델 축에 이어 방식 축도 "현행이 검증된 정답".

백필이 잠복 밸류 버그를 드러냈다

Iter 32 · 90K 백필 후 카드 검증

만든 것

우선순위 백필 완료(media_extractions 858→13,133). GEV figure가 39→230(6배)으로 늘며 생산캐파·EBITDA·마진 차원이 새로 채워짐.

비판 (감시자 #3 · 원본·thefly 대조)

EBITDA·마진은 진짜 figure 기반(백필 가치 입증). 하지만 GEV 밸류에이션이 100% 오염:

"밴드 $184~$996이 통째로 현재가($912) 아래다 — 말이 안 되는 밸류. 숫자가 전부 thefly의 pt_from(인상 전 값)이고, MS $184는 Bloom Energy 목표가가 GEV로 누수된 것. 그런데 🟢high로 박혀 있다."

수정 · 결과

정규식이 "raised to $1,195 from $996"에서 콤마 4자리 to값을 못 잡고 from만 긁던 버그 수정(to값만 채택), median 이상치 컷으로 크로스티커 누수 제거. 밸류 $184~$996 → $1,095~$1,400(실제 목표가 정합). BE 회귀 0.

다섯 번 모두, 스스로 칭찬하는 대신 별도 에이전트가 결론을 무너뜨리려 시도했다. 그 결과 BE 전용 하드코딩, precision 미측정, 앙상블 환각, self-check 중복, 밸류 크로스티커 누수가 차례로 드러났다. 비판이 없었다면 "잘 됐다"고 출시했을 결함들이다. 검증 루프의 가치는 만든 것을 칭찬하는 데 있지 않고, 무엇이 틀렸는지 먼저 말하게 하는 데 있다.

파이프라인: scripts/media-intel/ · 백테스트: backtest/ · 전체 이터레이션 로그: PLAN.md