탐색과 활용 · 알고리즘, 인생을 계산하다

훅 — 인생의 영원한 딜레마

단골 김밥집 vs 새로 생긴 태국 식당. 오랜 친구 vs 새로 만난 지인. 좋아하는 노래 vs 막 발매된 신곡. 이 모든 결정은 같은 구조입니다 — 탐색(explore)할 것인가, 활용(exploit)할 것인가?

컴퓨터 과학자들은 이 문제를 다중 슬롯머신 문제(Multi-Armed Bandit)라 부릅니다. 슬롯머신을 "one-armed bandit"(한 팔의 강도)이라 부르는 데서 유래했죠. 2차 대전 중 연합군 분석가들은 이 문제가 너무 시간을 잡아먹어서 "독일에 떨어뜨려 지적 사보타주를 일으키자"는 농담까지 했다고 합니다.

단골 김밥집 vs 새 태국식당 — 답은 '얼마나 더 머물 건지'에 달려 있다.

핵심 통찰

Interval이 전략을 결정한다

🔑모든 것은 '남은 시간'에 달렸다

새로운 도시에 막 도착했다면 explore. 곧 떠날 거라면 exploit. 같은 결정도 남은 시간(interval)이 짧으냐 기냐에 따라 답이 완전히 달라집니다.

이 통찰은 노화의 "비밀"도 풀어줍니다. 스탠퍼드의 Laura Carstensen은 노인의 사회적 네트워크 축소를 무능력이 아닌 합리적 선택으로 설명합니다. 청년은 책 저자나 새 친구를 선호하고, 노인은 가족과 30분 보내기를 선호합니다. 그러나 청년에게 "곧 다른 도시로 이사한다"고 가정하면 가족을 선호하고, 노인에게 "20년 더 살 수 있는 의학 발견이 있다"고 가정하면 청년처럼 행동합니다. 나이가 아니라 interval이 결정합니다.

Win-Stay, Lose-Shift — 이긴 슬롯머신은 그대로, 진 머신은 옮긴다. 미지엔 보너스(Gittins 0.7029).

직접 해보기

식당 고르기 게임

🎰 식당 고르기 — UCB1 vs 직감

총 0번 · 만족 0번

4개 식당의 실제 만족 확률은 숨겨져 있습니다. 직접 골라보거나, UCB1 알고리즘의 추천을 따라가 보세요. UCB1은 "관측된 평균 + 불확실성 보너스"가 가장 큰 식당을 고릅니다 — 불확실성 앞에서의 낙관주의.

최근 결과 (좌→우)

식당을 클릭해 시작하세요

💡 다중 슬롯머신 문제(Multi-Armed Bandit). UCB1은 시도 횟수가 적은 식당일수록 보너스를 더 줘서 자동으로 explore하다가, 표본이 쌓이면 보너스가 줄어 자연스레 exploit으로 전환합니다. 후회(regret)는 로그적으로만 늘어나는 것이 보장됩니다.

알고리즘의 진화

👤 Win-Stay, Lose-Shift· 1952, Herbert Robbins

가장 단순한 규칙 — 이기면 계속, 지면 다른 머신으로. 우연보다는 확실히 낫습니다. "Stay on a winner" 원칙은 거의 모든 최적 전략의 일부입니다.

👤 Gittins Index· 1970년대

영국 Unilever가 John Gittins에게 약품 시험 최적화를 의뢰하면서 탄생했습니다. 각 머신마다 "이 머신을 영원히 안 당기는 대신 받을 만한 보장된 보상"(뇌물!)을 계산해 가장 높은 인덱스를 가진 머신을 선택합니다.

놀라운 사실: 0-0 기록(완전히 모르는 머신)의 인덱스가 0.7029로, 7/10 성공한 머신(0.6300)보다도 높습니다. 미지에는 가치가 있습니다.

👤 UCB · 불확실성 앞에서의 낙관주의

"Upper Confidence Bound" — 신뢰구간의 상한선이 가장 높은 옵션을 선택. "잘 모르겠지만 어쩌면 최고일 수도?"라는 기대감이 새로움에 보너스를 줍니다.

A/B 테스트의 현장

👤 Dan Siroker · 오바마 캠페인· 2007년

구글 PM이었던 Siroker는 휴직하고 오바마 캠프에 합류, 후원 페이지를 A/B 테스트했습니다. 결과:

첫 방문자 → "DONATE AND GET A GIFT"가 최고
뉴스레터 구독자 → "PLEASE DONATE" (죄책감 자극)
기존 기부자 → "CONTRIBUTE" (이미 donate했으니까)
흑백 가족사진이 모든 영상/사진을 압도

결과: $5,700만 추가 모금. Siroker는 후에 Optimizely를 공동 창업합니다.

👤 Jeff Bezos · 후회 최소화 프레임워크

D. E. Shaw에서 안정적 직장을 그만두고 Amazon 창업을 결심한 이유: "80세의 나로 시간 여행해서 후회를 최소화하라." 시도하지 않은 것은 평생 나를 괴롭깁니다.

윤리적 시험

ECMO와 적응형 임상시험

1970년대 Robert Bartlett이 개발한 신생아 호흡부전 치료법 ECMO. 1982-84년 미시간대 연구는 Marvin Zelen의 "Play the winner" 적응형 알고리즘을 사용했습니다 — 성공한 치료의 공을 모자에 추가하는 방식.

한 명만 기존 치료받고 사망
11명 연속 ECMO 받고 모두 생존
8명 추가 ECMO도 모두 생존
기존 치료 2명은 모두 사망

영국의 전통 RCT(무작위 통제 시험)에서는 ECMO 그룹이 24명 더 살았습니다. "기존 시험 방식이 비윤리적이었다"는 지적이 나오는 이유입니다.

후회의 수학

O(log n)

후회 최소화 한계

Lai-Robbins(1985): 후회는 절대 줄지 않지만, 최적 전략은 후회의 증가율이 로그 함수로 가장 느립니다. 첫 10번의 실수 = 다음 90번 = 그 다음 900번.

"탐색 그 자체에 가치가 있다. 불안한 세계에서 살려면 자신 안에도 어떤 불안함이 필요하다."
— 챕터 결언

실생활 적용

🍽️ 식당 선택: 새 도시 도착 직후엔 explore, 떠나기 전엔 exploit.
👶 양육: 아이의 산만함과 호기심은 결함이 아니라 탐색 단계의 합리적 행동.
🎬 영화/책: 청년기 다양하게, 노년기 의미 있는 소수에 집중.
💼 창업: Bezos의 "80세 후회 최소화"를 자문해 보라.

💭

Reflection

고민해 볼 질문들

정답이 정해져 있지 않은 열린 질문입니다. 혼자 생각해 보거나, 가까운 사람과 함께 이야기 나눠 보세요.

01
지금 당신의 인생은 explore(탐색)에 가까운가요, exploit(활용)에 가까운가요? 그 시기는 자연스러운가요, 강요된 것인가요?
02
새로움을 너무 자주 추구해서 잃은 것은 무엇이었고, 안전함만 좇아서 놓친 것은 무엇이었나요?
03
베조스의 '80세의 나'가 지금의 당신에게 보내는 메시지가 있다면 무엇일까요?
04
어떤 영역에서 당신은 단골(exploit)을 만들고, 어떤 영역에서 끊임없이 탐색하나요? 그 경계는 합리적인가요?