Siri가 드디어 "작동"하는 이유 — 화려한 AI가 아니라 지루한 인덱스 재구축이었다
이번 WWDC의 본질은 AI 기능 추가가 아니라 플랫폼 전면 재아키텍처다. CPU 스케줄러, 검색 인덱스, 시맨틱 서치 기반을 모두 갈아엎지 않고서는 RAG 기반 Siri가 작동할 수 없었다. "엄마가 샌프란시스코에 언제 도착해?" 같은 데모가 2024년에 불가능했던 이유는 모델이 나빠서가 아니라 iMessage 검색 자체가 작동하지 않았기 때문이다. Apple은 이 사실을 뒤늦게 — 혹은 알면서도 외부에 늦게 — 인정한 셈이다.
Ben Bajarin이 꼽은 WWDC 2026의 가장 큰 변화는 어떤 신규 AI 기능도 아니었다. 운영체제 수준의 지루한 배관 공사 — CPU 스케줄러 업데이트, 검색 인덱스 재구축 — 가 이번 키노트의 진짜 주인공이었다. "Apple이 CPU 스케줄러를 언급한 게 언제였냐"는 Thompson의 물음은 단순한 수사가 아니다. 수십억 명의 사용자가 깔린 플랫폼을 근본부터 바꾸는 것이 얼마나 어려운 일인지를 방증한다.
인덱스가 핵심이었다: Siri가 원하는 대로 작동하려면 RAG(Retrieval-Augmented Generation)가 필수인데, RAG는 제대로 된 검색 인덱스 없이는 쓸모가 없다. Thompson은 "iMessage에서 메시지 검색을 해봤다면 그게 얼마나 안 됐는지 느꼈을 것"이라고 지적했다. 연락처에 있는 사람의 메시지조차 검색이 안 되는 상황에서 Siri가 맥락을 이해하길 바라는 건 무리였다.
2024 Apple Intelligence의 완성판: Bajarin과 Thompson 모두 이번 발표를 "2024년에 발표한 것을 이번에 진짜로 구현한 것"으로 정의했다. 신기술이 아니라 약속 이행이다. 20B 파라미터 MoE 온디바이스 모델은 토큰 단위가 아닌 쿼리 단위로 전문가(expert)를 선택해 메모리 부담을 줄이는 구조를 택했는데, 12GB RAM이 필요해 A19 Pro 이상에서만 음성 관련 기능이 지원된다. 다만 컨텍스트 Siri·시맨틱 검색 등 대부분의 기능은 구형 기기에도 제공된다.
소비자 AI의 실제 수요: Bajarin은 "대부분의 소비자는 ChatGPT나 Claude를 그냥 검색으로 쓴다"고 정리했다. 레시피, DIY 프로젝트 — 결국 고급 검색이다. Apple이 이 수준을 할머니도 쓸 수 있게 만들 수 있다면, 그게 소비자 AI의 실질적 엔드게임이라는 것이 두 사람의 공통된 결론이다.
쉽게 풀어보기 — RAG와 MoE
- RAG (Retrieval-Augmented Generation)
- AI 모델이 답변을 생성하기 전에 실제 데이터를 먼저 검색해서 참고하는 방식. "엄마 메시지 찾아줘"가 작동하려면 이 검색 단계가 제대로 돌아야 한다.
- MoE (Mixture-of-Experts)
- 모델 안에 여러 '전문가' 서브모델을 두고, 질문 유형에 따라 일부만 활성화하는 구조. 전체 모델을 항상 돌리는 것보다 훨씬 효율적.
- 쿼리 단위 vs 토큰 단위 라우팅
- 일반 MoE는 단어 하나하나마다 어떤 전문가를 쓸지 결정하는데, 이러면 전체 모델이 메모리에 올라와 있어야 한다. Apple은 질문 전체 단위로 전문가를 선택해 메모리 부담을 줄였다.