모든 산출물은 적대적 감시자(별도 AI 에이전트)에게 넘겨 "틀린 것을 찾아라"는 프레임으로 검증했다.
감시자의 임무는 칭찬이 아니라 결론을 무너뜨릴 결함을 찾는 것. 아래는 그 비판이 실제로 산출물을 어떻게 바꿨는지의 기록이다.
만든 것비판수정 / 결과
01
경쟁 차원이 BE 전용 하드코딩이었다
Iter 28 · 구조 검증
만든 것
BE 카드가 8.0 찍은 게 진짜 파이프라인인지, BE 전용 하드코딩 덕인지 보려고
두꺼운 종목(GEV)·얇은 종목(파이오링크)으로 카드를 재현.
비판
경쟁 차원의 진화 문구가 "GE Vernova·Siemens·Delta SOFC"로 통째 하드코딩되어
GEV(자기가 GE Vernova인데!)·파이오링크(보안업체)에까지 그대로 누출.
one_liner 프롬프트엔 "지금 BE는 한마디로" 리터럴이 박혀 있었다.
수정 · 결과
경쟁을 데이터 기반으로 재작성(전문가 인터뷰 제목의 경쟁신호 + bear 논쟁 + 슬랙, 전부 종목별 파라미터화).
one_liner도 종목 변수화. BE 8 유지 · GEV 누출 0 · 파이오링크는 8개 차원 전부 "없는 차원"으로 정직하게 비움(환각 0).
02
"이 백테스트로는 최선을 못 고른다"
Iter 30 · 모델 10종 백테스트
만든 것
추출 엔진 10종(flash-lite·Gemini Pro·GPT-4o·Claude·2-pass·few-shot·업스케일·타일·앙상블 등)을
골든셋 53 figure로 recall 백테스트. M6(few-shot)가 1위로 나옴.
비판 (감시자 #1)
"이 백테스트로는 최선을 못 고른다. recall이 다 0.96+인 건 방법론이 좋아서가 아니라
골든셋을 쉽게 깎았기 때문이다. 실질 변별은 이미지 단 1장에 의존(n=1). 그리고
precision(환각)을 안 쟀다 — 카드를 오염시키는 바로 그 축이다. M9 voting은 구현조차 안 됐다(합집합 stub). M6 채택은 부당."
수정 · 결과
M9 실제 voting 구현, 엔티티 별칭·단위 정확도·확장비 추가, raw 저장.
1차 백테스트를 "불합격" 처리하고 precision 측정을 새로 붙임. 비판이 결론을 보류시킴.
03
앙상블이 환각을 6배로 늘렸다
Iter 30 · precision 전수 심판
검증 (감시자 #2 · 원본 이미지 전수 대조)
방법
환각·오독률
판정
M1 flash-lite (현행)
1.8%
precision 승자
M6 few-shot
2.4%
M1급 + 표 누락컬럼 회수
M9 self-consistency 앙상블
10.9%
최악 — 체계적 환각
"M9의 ext 폭증은 robust가 아니라 인접 셀·분기 값을 복붙한 carry-over 환각이다.
잘못된 종목·분기에 값이 귀속된다 — 90K 스케일에서 silent corruption."
결과
현행 flash-lite 단일호출이 실제 최선임을 확정.
"더 정교한 게 더 좋다"는 직관이 틀렸음을 데이터로 증명 — 비싼 앙상블이 오히려 위험.
EBITDA·마진은 진짜 figure 기반(백필 가치 입증). 하지만 GEV 밸류에이션이 100% 오염:
"밴드 $184~$996이 통째로 현재가($912) 아래다 — 말이 안 되는 밸류.
숫자가 전부 thefly의 pt_from(인상 전 값)이고, MS $184는 Bloom Energy 목표가가 GEV로 누수된 것.
그런데 🟢high로 박혀 있다."
수정 · 결과
정규식이 "raised to $1,195 from $996"에서 콤마 4자리 to값을 못 잡고 from만 긁던 버그 수정(to값만 채택),
median 이상치 컷으로 크로스티커 누수 제거.
밸류 $184~$996 → $1,095~$1,400(실제 목표가 정합). BE 회귀 0.
다섯 번 모두, 스스로 칭찬하는 대신 별도 에이전트가 결론을 무너뜨리려 시도했다.
그 결과 BE 전용 하드코딩, precision 미측정, 앙상블 환각, self-check 중복, 밸류 크로스티커 누수가
차례로 드러났다. 비판이 없었다면 "잘 됐다"고 출시했을 결함들이다.
검증 루프의 가치는 만든 것을 칭찬하는 데 있지 않고, 무엇이 틀렸는지 먼저 말하게 하는 데 있다.