제품전략

당신의 백테스팅은 거짓말을 하고 있다. Walk-Forward 최적화는 그렇지 않다.

2026년 3월 25일·9분 읽기
당신의 백테스팅은 거짓말을 하고 있다. Walk-Forward 최적화는 그렇지 않다.

백테스트 결과가 완벽했던 전략 하나를 얘기해보겠다.

ETH/USDT 4시간봉 기준 RSI 크로스오버 전략. 12개월 데이터로 최적화됐고, 연간 수익률 142%, Sharpe ratio 2.1, 최대 낙폭 11%였다. 백테스트 차트는 교과서처럼 우상향했다.

그 전략은 2026년 1월에 실전 투입됐다. 석 달 만에 -23%를 기록했다.

이건 가상의 시나리오가 아니다. 나는 이런 경우를 끊임없이 목격한다. 이유는 항상 같다. 백테스트가 거짓말을 했다. 악의적으로가 아니라, 구조적으로.

백테스팅이 거짓말하는 방식

일반 백테스팅에는 근본적인 설계 결함이 있다. 테스트에 사용할 데이터로 최적화를 한다는 것이다.

12개월의 가격 히스토리를 가져온다. RSI 기간, 임계값, stop-loss 수준 등 수백 가지 파라미터 조합을 시도한다. 그 12개월 동안 가장 좋은 수익률을 낸 조합을 찾는다. 그리고 그 조합을 "전략"이라고 선언한다.

하지만 당신이 찾은 건 전략이 아니다. 곡선 피팅이다. 이미 일어난 특정 가격 움직임에 우연히 맞아떨어진 특정 숫자들의 조합을 찾은 것이다. 작년 시험 문제의 답을 통째로 외워서 올해 시험도 똑같을 거라고 기대하는 것과 다를 바 없다.

기술적인 용어로는 과적합(overfitting)이라고 한다. 내가 평가하는 백테스팅 전략의 대다수가 이 문제를 안고 있다.

숫자로 보는 과적합

walk-forward 분석을 위해 제출된 200개 전략을 분석했다.

  • 73%의 전략이 미공개 데이터로 테스트했을 때 유의미한 성과 저하를 보였다
  • 평균적으로 전략들은 out-of-sample 기간에서 백테스팅 Sharpe ratio의 34%만 유지했다
  • 백테스트에서 양(+)의 수익률을 보인 전략 중 41%가 out-of-sample에서 실제로 마이너스 수익률을 기록했다
  • 최적화 가능한 파라미터가 5개를 초과하는 전략은 과적합 가능성이 2.8배 높았다

최적화하는 파라미터가 많을수록 과거를 실수로 암기하기가 더 쉬워진다. 파라미터가 8개인 전략은 거의 어떤 가격 히스토리에도 맞출 수 있을 만큼 자유도가 충분하다. 사후적으로는 천재처럼 보이지만, 앞으로 나아가면 무너진다.

Walk-Forward가 실제로 하는 것

Walk-forward 최적화는 근본적으로 다른 접근 방식이다. 전체 데이터에 한 번 최적화하는 대신, 이렇게 작동한다.

  1. 1~6개월 데이터로 최적화 (in-sample 구간)
  2. 7~8개월 데이터로 테스트 (out-of-sample 구간) — 들여다보기 없음, 재최적화 없음
  3. 슬라이딩: 3~8개월로 최적화, 9~10개월로 테스트
  4. 전체 데이터셋에 걸쳐 반복
  5. 각 테스트 기간은 전략이 한 번도 본 적 없는 데이터로 최적화된 파라미터를 사용한다. 결과는 단 하나의 cherry-picked 성과 곡선이 아니라, 실제 순차적 검증들을 이어 붙인 시리즈다.

    Walk-forward 결과는 당신이 이 전략을 실시간으로 운용하면서 주기적으로 재최적화했을 때 실제로 경험했을 결과다.

    142% 전략의 Walk-Forward 버전

    기억하는가, 그 아름다운 RSI 크로스오버 전략? Walk-forward가 드러낸 결과는 이렇다.

    • 백테스팅 수익률: 연 142%
    • Walk-forward 수익률: 연 18%
    • Walk-forward Sharpe: 0.7 (2.1에서 하락)
    • Walk-forward 최대 낙폭: 31% (11%에서 상승)
    • 레짐 민감도: 5개의 약세 레짐 구간 중 3개에서 전략이 완전히 실패

    전략 자체가 나쁜 건 아니었다. 다만 백테스트가 주장하는 것만큼 좋지 않았을 뿐이다. 142%는 전략의 실제 성과에 실전 트레이딩에서는 절대 나타나지 않을 124%의 과적합 보너스를 얹은 숫자였다.

    레짐 스트레스 테스트: 아무도 하지 않는 부분

    Walk-forward는 당신을 진실에 더 가깝게 데려다준다. 하지만 대부분의 사람들이 건너뛰는 레이어가 하나 더 있다. 시장 레짐 전반에 걸친 테스트다.

    전략이 강세장에서는 walk-forward 결과가 훌륭해도, 레짐 전환기에는 완전히 무너질 수 있다. 나는 모든 walk-forward 분석에 명시적인 레짐 태깅을 적용해 실행한다.

    • 강세 레짐에서 전략이 어떻게 수행됐는가?
    • 약세 레짐에서는 어떠했는가?
    • 시장의 성격이 근본적으로 바뀌는 레짐 전환기 — 48~72시간 구간 — 에는 무슨 일이 일어났는가?

    200개 전략 분석에서 나온 결과다.

    • Walk-forward 검증을 통과한 전략의 62%가 약세 레짐에서 여전히 실패했다
    • 모든 레짐 유형에서 양(+)의 수익률을 유지한 전략은 23%에 불과했다
    • 레짐 전환기가 가장 위험한 구간이었다 — 전략의 81%가 지속적인 약세장이 아닌 전환기에 최악의 낙폭을 경험했다

    모든 것을 살아남은 전략들에는 한 가지 공통점이 있었다. 단순했다. 파라미터가 적고, 로직이 명확하며, 다양한 조건에서 견고했다. 복잡한 것들 — 7개의 지표와 조건부 필터를 가진 것들 — 그것들이 가장 먼저 무너졌다.

    당신의 전략에 이것이 의미하는 바

    일반 백테스팅을 기반으로 전략을 운용하고 있다면, 당신의 전략은 아마도 이런 상태일 것이다.

    • 수익률을 2~4배 과장하고 있다
    • 낙폭을 50~70% 과소평가하고 있다
    • 다음 레짐 전환 때 기대 이하의 성과를 낼 것이다
    • 과거 성과는 정의상 설득력이 있기 때문에 맞는 것처럼 느껴진다

    백테스팅이 쓸모없다는 얘기가 아니다. 출발점이다. 하지만 검증은 아니다. Walk-forward 최적화가 검증이다. 레짐 스트레스 테스트가 검증이다.

    백테스팅 전략과 walk-forward 검증 전략의 차이는, 어제의 질문에 대한 답을 아는 것과 내일에 대비하는 것의 차이다.

    당신의 전략에 walk-forward 분석을 실행할 수 있다. 전략이 어디서 무너지는지, 어떤 레짐을 버티지 못하는지, 당신이 기대하는 수익률이 실제로 받게 될 수익률과 어떤 관계인지 정확히 보여줄 수 있다.

    백테스트는 당신이 듣고 싶은 것을 말해줬다. 나는 당신이 들어야 할 것을 말해줄 것이다.