10. Advances in Financial Machine Learning

Tên Việt: Những Tiến bộ trong Machine Learning Tài chínhTác giả: Marcos López de Prado (2018), Wiley.

Core Concept. Cuốn sách (không phải paper đơn lẻ, nhưng là tham chiếu định nghĩa của trường) chỉ ra rằng việc áp dụng ML truyền thống vào tài chính thất bại vì 7 lý do cấu trúc: (i) dữ liệu tài chính có non-IID (vi phạm giả định cơ bản của ML); (ii) labels chồng lấp khi dùng fixed-time horizon; (iii) backtest overfitting nghiêm trọng do multiple testing; (iv) stationarity giả tạo từ price levels. López de Prado đề xuất các giải pháp: Triple-Barrier Method cho labeling, Meta-Labeling để tách signal từ size, Purged K-Fold CV để tránh leakage, Combinatorially Symmetric Cross-Validation (CSCV), và Deflated Sharpe Ratio để hiệu chỉnh multiple testing bias.

Practical Application. Đây là cuốn sách nền cho bất kỳ ai muốn dùng ML trong quant trading mà không rơi vào bẫy overfitting. Cụ thể: khi train một XGBoost/LightGBM dự báo direction VN30F, phải dùng (i) Fractional Differentiation thay vì simple returns để giữ memory mà vẫn stationary; (ii) Triple-Barrier labels thay vì fixed-horizon — define ba ngưỡng (profit target, stop loss, time limit), label = -1/0/+1 theo barrier nào bị chạm trước; (iii) Purged CV — loại bỏ các sample trong train set có label chồng lấp với test set; (iv) tính Deflated Sharpe = Sharpe điều chỉnh theo số trial đã thử. Một chiến lược ML có Sharpe in-sample 2.5 sau 100 trials có thể có Deflated Sharpe chỉ 0.3 — đủ để bị từ chối deploy.

Hướng đọc tiếp theo

Sau khi nắm chắc 10 papers trên, người học nên đọc thêm: Carhart (1997) cho 4-factor model; Engle-Granger (1987) cho cointegration; Heston (1993) cho stochastic volatility; Almgren-Chriss (2000) cho optimal execution; Easley-Lopez de Prado-O'Hara (2012) cho VPIN. Tham khảo curriculum CFA Level III và CQF (Certificate in Quantitative Finance) để có lộ trình hệ thống.

10. Advances in Financial Machine Learning ​

10. Advances in Financial Machine Learning