Le Sharpe ratio, utile, omniprésent, et très facilement mal lu
Le ratio de Sharpe reste un bon point de départ. Il résume l’efficacité d’une stratégie à transformer du risque en rendement excédentaire. S’il est négatif, la discussion est courte. S’il est proche de zéro, elle n’est pas beaucoup plus longue. S’il est élevé, la discussion commence seulement.
Ce que le Sharpe mesure, et ce qu’il ne mesure pas
Dans sa forme canonique, le Sharpe compare le rendement moyen excédentaire à l’écart-type des rendements. Cela suppose implicitement que la volatilité est un résumé acceptable du risque et que la distribution des rendements n’est pas trop pathologique. Dans la pratique des stratégies événementielles, notamment sur transactions d’initiés, ces hypothèses sont souvent malmenées.
Les rendements peuvent être asymétriques. Ils peuvent présenter des queues épaisses. Ils peuvent dépendre de quelques épisodes extrêmes, par exemple des annonces réglementaires, des gaps d’ouverture ou des périodes de stress de marché. Une stratégie peut afficher un Sharpe très convenable tout en étant portée par un petit nombre de trades décisifs. Ce n’est pas forcément illégitime. C’est simplement une information qu’un Sharpe seul ne contient pas.
Le vrai problème, la salle des essais non montrés
Le défaut le plus sérieux du Sharpe dans un contexte de recherche n’est pas seulement statistique, il est procédural. Un Sharpe observé après un seul test a une signification. Un Sharpe observé après cent variantes a une autre signification. Après mille, il commence à ressembler à la meilleure photo d’une séance où l’on a pris mille clichés.
Voici le point central. Si vous testez assez de règles, de seuils, de fenêtres de détention, de filtres de liquidité, de neutralisations sectorielles et de variantes de coûts, l’une d’elles finira presque mécaniquement par produire un Sharpe flatteur, même si le signal sous-jacent est faible ou inexistant. Ce phénomène est connu, documenté, et parfaitement banal. Il n’a rien de scandaleux. Ce qui l’est davantage, c’est de l’omettre.
Pourquoi les stratégies sur initiés sont particulièrement exposées
Les signaux issus des déclarations d’initiés ont de vraies raisons économiques d’exister. Les dirigeants connaissent mieux leur entreprise que le marché, l’information se diffuse avec frictions, et la valeur informative varie selon le type d’initié, la taille de la transaction, le contexte de valorisation, la concentration des achats, ou la proximité d’événements corporate. C’est précisément pour cela que le terrain est fertile, et donc dangereux.
Un terrain fertile invite à tester beaucoup de variantes plausibles. Achat du CEO seulement, achat groupé de plusieurs insiders, exclusion des plans automatiques, filtrage sur small caps, délai d’exécution à J+1 ou J+2, holding period de 20, 60 ou 120 jours, neutralisation beta ou non, winsorisation ou non. Chacune de ces décisions peut être défendable. Ensemble, elles créent un risque massif de sélection ex post.
Le Deflated Sharpe Ratio, une correction pour adultes consentants
Le Deflated Sharpe Ratio a été popularisé par David H. Bailey et Marcos López de Prado pour répondre à ce problème. L’idée n’est pas de “punir” un bon backtest. L’idée est de demander si le Sharpe observé reste impressionnant une fois pris en compte le fait que l’on a probablement essayé plusieurs choses, et que les rendements ne suivent pas toujours une jolie loi normale.
L’intuition du DSR
Le DSR estime la probabilité qu’un Sharpe observé soit réellement supérieur à zéro après correction de deux familles de biais.
Premièrement, la distribution des rendements peut présenter asymétrie et kurtosis. Un Sharpe de 1,2 n’a pas la même signification statistique si les rendements sont sages ou s’ils ressemblent à une collection de petites journées calmes et de quelques accidents.
Deuxièmement, il faut tenir compte du nombre de tests, ou plus précisément du nombre de stratégies effectivement essayées, ainsi que de leur dépendance. Dix variantes très corrélées ne valent pas dix expériences indépendantes. Mille variantes légèrement différentes ne valent pas non plus une seule idée originale.
Le DSR cherche donc un seuil de Sharpe “attendu par chance” compte tenu de cet environnement de recherche, puis compare le Sharpe observé à ce seuil en ajustant pour la forme empirique des rendements.
Ce que le DSR n’est pas
Le DSR n’est pas une baguette magique. Il ne transforme pas un protocole douteux en preuve. Il ne remplace pas une validation hors échantillon. Il ne corrige pas des coûts de transaction sous-estimés, des hypothèses d’exécution fantaisistes, une survivorship bias, une look-ahead bias, ou un univers reconstruit avec des données indisponibles à la date du signal.
Autrement dit, le DSR répond à une question précise, “ce Sharpe est-il encore crédible après correction de la fouille et de la non-normalité ?” Il ne répond pas à toutes les autres. C’est déjà beaucoup.
Ce qu’il faut publier pour qu’un DSR soit lisible
Un article ou un memo de recherche qui cite un DSR sans publier les ingrédients essentiels ne rend pas service au lecteur. Pour interpréter correctement le chiffre, il faut au minimum :
- la longueur de l’échantillon,
- la fréquence des rendements,
- le Sharpe observé,
- l’asymétrie et la kurtosis, ou de quoi les estimer,
- le nombre de stratégies testées, ou une approximation défendable,
- le degré de dépendance entre ces stratégies, si possible,
- la définition exacte des coûts et frictions,
- la procédure de sélection finale.
Sans cela, un DSR a parfois une allure très scientifique, mais il reste suspendu dans le vide.