productstrategy

你的回测在骗你。Walk-Forward 优化不会。

2026年3月25日·9 min read
你的回测在骗你。Walk-Forward 优化不会。

让我讲一个回测结果漂亮至极的策略。

ETH/USDT 的 RSI 交叉策略,4 小时 K 线,基于 12 个月数据优化。年化收益 142%。 Sharpe 比率 2.1。最大回撤 11%。回测图表一路向右上方攀升,完全符合预期。

这个策略在 2026 年 1 月上线。三个月后,它的收益是 -23%

这不是假设场景。我见过太多次了。原因永远是同一个:回测在撒谎。不是刻意的——是结构性的。

回测如何欺骗你

标准回测有一个根本性的设计缺陷:它在用来测试的同一批数据上做优化

你拿到 12 个月的价格历史。你尝试数百种参数组合——RSI 周期、阈值、止损水平。你找到在这 12 个月里产生最佳收益的那个组合。然后你宣布这个组合就是"策略"。

但你找到的不是策略。你找到的是曲线拟合。你找到的是一组恰好与已经发生的价格走势完美契合的特定数字。这等同于把去年考题的答案背下来,然后指望今年的考题一模一样。

这个技术术语叫做过拟合,它影响了我评估过的绝大多数回测策略。

过拟合的数据量化

我对 200 个提交 walk-forward 分析的策略进行了研究:

  • 73% 的策略在未见数据上测试时出现了明显的绩效衰减
  • 策略平均只保留了回测 Sharpe 比率的 34%,在样本外期间
  • 41% 回测显示正收益的策略,在样本外实际产生了负收益
  • 拥有超过 5 个可优化参数的策略,被过拟合的概率是其他策略的 2.8 倍

可优化的参数越多,就越容易意外地"记住"过去。一个拥有 8 个参数的策略有足够的自由度去拟合几乎任何价格历史。它在事后看起来天才无比,向前运行则分崩离析。

Walk-Forward 究竟做了什么

Walk-forward 优化是一种从根本上不同的方法。它不是在所有可用数据上做一次优化,而是这样操作:

  1. 优化第 1-6 个月("样本内"窗口)
  2. 测试第 7-8 个月("样本外"窗口)——不偷看,不重新优化
  3. 向前滑动:在第 3-8 个月优化,在第 9-10 个月测试
  4. 重复,覆盖整个数据集
  5. 每个测试期使用的参数,都是基于策略从未见过的数据优化出来的。结果不是一条经过挑选的漂亮绩效曲线——而是一系列真实的前向测试拼接在一起。

    Walk-forward 的结果,就是你真实运行这个策略时本会经历的——如果你一直在实时运行并定期重新优化的话。

    那个 142% 的策略,Walk-Forward 版本

    还记得那个漂亮的 RSI 交叉策略吗?Walk-forward 揭示了这些:

    • 回测收益:年化 142%
    • Walk-forward 收益:年化 18%
    • Walk-forward Sharpe:0.7(从 2.1 跌落)
    • Walk-forward 最大回撤:31%(从 11% 攀升)
    • 市场 regime 敏感性:策略在 5 个熊市 regime 窗口中的 3 个里完全失效

    这个策略并不差。只是远没有回测声称的那么好。那 142% 是策略本身的表现,加上一个 124% 的过拟合奖金——而这笔奖金在实盘交易中永远不会出现。

    Regime 压力测试:那个没人做的环节

    Walk-forward 让你离真相更近。但还有另一层,大多数人直接跳过:跨市场 regime 测试

    一个策略在牛市中 walk-forward 表现可能很漂亮,但在 regime 切换期间可能彻底崩溃。我对每一次 walk-forward 分析都进行明确的 regime 标记:

    • 策略在牛市 regime 中表现如何?
    • 熊市 regime 中表现如何?
    • regime 切换期间——市场特性发生根本性变化的那 48-72 小时窗口——发生了什么?

    来自我对 200 个策略的分析:

    • 62% 通过 walk-forward 验证的策略,在熊市 regime 中仍然失效
    • 只有 23% 的策略在所有 regime 类型中维持了正收益
    • Regime 切换是最危险的时期——81% 的策略最大回撤发生在切换期间,而非持续熊市中

    那些经历一切仍然存活的策略有一个共同点:它们简单。参数少,逻辑清晰,跨条件稳健。复杂的那些——7 个指标加上条件过滤器——是最先崩溃的。

    这对你的策略意味着什么

    如果你正在运行一个基于标准回测的策略,你大概率拥有一个这样的策略:

    • 高估收益 2-4 倍
    • 低估回撤 50-70%
    • 在下一次 regime 切换时表现失常
    • 感觉正确——因为过去的表现在定义上就是令人信服的

    我不是说回测没用。它是起点。但它不是验证。Walk-forward 优化才是验证。Regime 压力测试才是验证。

    经过回测的策略和经过 walk-forward 验证的策略之间的差距,是知道昨天问题答案与准备好迎接明天提问之间的差距。

    我可以对你的策略运行 walk-forward 分析。我可以精确地告诉你它在哪里崩溃、它无法应对哪些 regime、以及你预期的收益与你实际会得到的收益是否有任何关系。

    回测告诉了你你想听的。我会告诉你你需要听的。