습관 형성의 심리학 : 강화 스케줄 (고정간격, 변동비율, 습관형성)

시험 끝나는 순간, 교재를 덮고 두 달 동안 펼쳐보지 않은 적 있으십니까? 저는 매 학기 그랬습니다. 중간고사가 끝나면 마치 약속이라도 한 것처럼 공부를 완전히 손에서 내려놓고, 기말고사 2주 전쯤 돼서야 다시 책상에 앉았습니다. 나쁜 습관이라고 생각했는데, 알고 보니 이 패턴에는 꽤 정교한 심리학적 설명이 있었습니다. 강화 스케줄(reinforcement schedule)이라는 개념인데, 이걸 이해하고 나서 제 행동 패턴을 보는 눈이 완전히 달라졌습니다.

왜 시험 전날 밤을 새우는가 — 고정간격 스케줄

혹시 평소에는 공부를 전혀 안 하다가 시험 일주일 전부터 미친 듯이 몰아치는 자신을 보고 "나는 왜 이럴까" 하고 자책한 적 있으십니까? 그게 사실 의지력의 문제가 아닐 수 있습니다.

행동심리학에서는 이 현상을 고정간격 스케줄(FI, Fixed Interval schedule)로 설명합니다. 여기서 고정간격 스케줄이란, 일정한 시간이 지난 후에 반응을 보이면 강화(보상)가 주어지는 방식을 말합니다. 시험이라는 보상(또는 결과)이 정해진 날짜에 고정되어 있으니, 사람의 반응 빈도가 자연스럽게 그 날짜에 가까워질수록 높아집니다.

이 패턴을 심리학에서는 스캘롭(scallop) 패턴이라고 부릅니다. 스캘롭이란 강화 직후에는 반응이 뚝 떨어졌다가 다음 강화 시점이 가까워질수록 반응이 가파르게 올라가는 곡선 형태를 의미합니다. 가리비 껍데기의 물결 무늬처럼 생겼다고 해서 붙여진 이름인데, 제가 시험 직후에는 공부를 손에서 놓고 시험 전날 밤을 새우는 패턴이 딱 이 모양입니다. 제 경험을 처음 이 용어와 연결시켰을 때 "아, 내가 망가진 게 아니라 그냥 조건화된 거였구나" 싶어서 묘하게 안도했습니다.

이 원리를 이해하면 반대로 활용할 수도 있습니다. 시험 하나에 의존하지 않고 중간 중간 작은 마감이나 체크포인트를 만들어주면, 스캘롭 곡선을 여러 개로 쪼개서 전반적인 반응 빈도를 끌어올릴 수 있습니다. 행동주의 심리학자 B.F. 스키너(B.F. Skinner)가 동물 실험에서 발견한 이 원리가, 수십 년 뒤 제 공부 습관에 그대로 적용된다는 점이 아직도 신기합니다.

도박과 골프가 멈추기 어려운 이유 — 변동비율 스케줄

도박이나 골프를 한 번 시작하면 왜 그렇게 끊기가 힘들까요? "의지가 약해서"라고 단순하게 넘기기 전에, 이 질문에 대해 한번 생각해 보시겠습니까?

조작적 조건화(operant conditioning) 이론에서 가장 강력한 학습 효과를 내는 방식은 변동비율 스케줄(VR, Variable Ratio schedule)입니다. 변동비율 스케줄이란, 내가 반응한 횟수에 비례해서 보상이 주어지되 정확히 몇 번째에 나올지는 매번 무작위로 달라지는 방식입니다. 평균적으로는 10번에 한 번 보상이 나오지만, 어떨 때는 3번 만에, 어떨 때는 15번 만에 나오는 식입니다.

이 방식이 무서운 이유는 두 가지입니다. 학습이 매우 빠르게 일어나고, 한 번 형성된 행동이 소거(extinction)되기가 극히 어렵습니다. 여기서 소거란 강화를 완전히 제거했을 때 조건화된 행동이 점차 줄어드는 현상을 말하는데, 변동비율 스케줄로 형성된 행동은 강화가 없어도 오랫동안 지속됩니다. "이번에는 나올지도 몰라"라는 기대감이 행동을 유지시키기 때문입니다.

제 경험상 골프가 딱 이 케이스입니다. 100타를 넘기는 날도 필드에서 딱 한두 번 기가 막힌 샷이 나옵니다. 그 한 번의 굿샷이 언제 터질지 모르니까 계속 채를 휘두르게 됩니다. 도박도 마찬가지입니다. 밤새 잃다가 한 번 잭팟이 터지면, 그 경험이 이후 수십 번의 실패를 상쇄해버리는 효과를 냅니다.

변동비율 스케줄의 특징을 정리하면 다음과 같습니다.

네 가지 강화 스케줄 중 학습 속도가 가장 빠릅니다.
보상이 없어도 행동이 오랫동안 유지됩니다 (소거 저항성 최고).
카지노 슬롯머신, 골프, 낚시처럼 "언제 터질지 모르는" 구조의 활동에서 나타납니다.
습관 형성을 의도적으로 설계할 때 가장 효과적인 방식입니다.

행동심리학자들의 연구에 따르면 변동비율 강화는 모든 강화 스케줄 중 반응 빈도와 소거 저항성이 가장 높은 것으로 보고되어 있습니다(출처: OpenStax Psychology 2e).

일상에 강화 스케줄을 설계하는 법 — 습관형성

그렇다면 이 원리를 나쁜 습관을 끊거나, 좋은 습관을 들이는 데 직접 써먹을 수 있을까요?

저는 한동안 중고거래 앱에서 원하는 물건이 나올 때마다 확인하느라 하루에 수십 번씩 앱을 열었습니다. 이게 전형적인 변동간격 스케줄(VI, Variable Interval schedule)입니다. 변동간격 스케줄이란, 특정 시간 간격을 중심으로 불규칙하게 보상이 주어지는 방식으로, 내가 얼마나 자주 반응하느냐와 무관하게 "언젠가는 나온다"는 구조입니다. 물건은 내가 새로고침을 100번 누른다고 더 빨리 올라오는 게 아니니까요. 이걸 깨닫고 나서 저는 30분에 한 번씩 정해진 시간에만 확인하는 방식으로 바꿨습니다. 시간은 훨씬 절약됐고, 원하는 물건을 놓치는 일도 크게 줄지 않았습니다.

좋은 습관을 들이고 싶을 때도 이 원리를 활용할 수 있습니다. 예를 들어 "운동 1시간 하면 좋아하는 카페에서 커피 한 잔"처럼 고정비율 스케줄(FR, Fixed Ratio schedule)로 보상을 설계하면 초기에 행동을 만들어내는 데 효과적입니다. 그 이후에는 보상 간격을 불규칙하게 조정해서 변동 스케줄로 전환하면 습관이 더 단단하게 자리잡는다는 게 행동주의 심리학의 핵심 제안입니다.

단, 여기서 주의할 점이 있습니다. 외적 보상을 너무 자주, 너무 크게 주면 오히려 내적 동기(intrinsic motivation)가 줄어드는 역효과가 나타날 수 있습니다. 내적 동기란 외부의 보상 없이도 활동 자체에서 즐거움과 의미를 찾는 동기를 말합니다. 인지부조화(cognitive dissonance) 연구에서도 비슷한 결과가 나왔는데, 외적 보상이 클수록 "나는 보상 때문에 이걸 한다"고 귀인하게 되어 활동에 대한 흥미 자체가 떨어질 수 있다는 것입니다. 스탠퍼드 대학교의 연구에서도 외적 보상이 내재된 흥미를 약화시킬 수 있다는 점이 확인된 바 있습니다(출처: Stanford Social Psychology / Lepper et al.).

강화 스케줄은 중독 치료 현장에서도 실제로 활용됩니다. 도박 중독의 경우, 보상이 완전히 차단되어야 소거가 일어나는데 변동비율로 형성된 행동은 소거에 1~2년이 걸리기도 합니다. 그래서 전문가들은 강화를 끊는 것과 동시에 대치 행동(alternative behavior), 즉 도박 대신 다른 즐거운 활동을 학습시키는 접근을 병행합니다.

강화 스케줄을 이해하고 나면 "왜 이 사람은 이렇게 행동할까"를 다르게 보게 됩니다. 의지력이나 성격의 문제가 아니라, 어떤 강화 구조 속에 놓여 있느냐의 문제일 수 있습니다. 저도 시험 전날 밤을 새우는 제 자신을 자책하는 대신, "고정간격 스케줄 안에 있구나"라고 진단하고 구조를 바꾸는 쪽으로 접근하기 시작했습니다. 완벽하게 고쳐지진 않았지만, 적어도 이유를 알고 나면 조금은 다르게 다룰 수 있습니다. 자신의 행동 패턴이 답답하게 느껴진다면, 어떤 강화 구조 속에 본인이 놓여 있는지부터 한번 살펴보시길 권합니다.

참고: https://openstax.org/books/psychology-2e/pages/6-3-operant-conditioning
https://psychology.stanford.edu

통닥터의 심리과학

습관 형성의 심리학 : 강화 스케줄 (고정간격, 변동비율, 습관형성)

왜 시험 전날 밤을 새우는가 — 고정간격 스케줄

도박과 골프가 멈추기 어려운 이유 — 변동비율 스케줄

일상에 강화 스케줄을 설계하는 법 — 습관형성

티스토리툴바