Comprendre le Sharpe et le Deflated Sharpe Ratio dans les backtests, Sigma Journal

InsidersTradesSigma

Le Sharpe ratio, utile, omniprésent, et très facilement mal lu

Le ratio de Sharpe reste un bon point de départ. Il résume l’efficacité d’une stratégie à transformer du risque en rendement excédentaire. S’il est négatif, la discussion est courte. S’il est proche de zéro, elle n’est pas beaucoup plus longue. S’il est élevé, la discussion commence seulement.

Ce que le Sharpe mesure, et ce qu’il ne mesure pas

Dans sa forme canonique, le Sharpe compare le rendement moyen excédentaire à l’écart-type des rendements. Cela suppose implicitement que la volatilité est un résumé acceptable du risque et que la distribution des rendements n’est pas trop pathologique. Dans la pratique des stratégies événementielles, notamment sur transactions d’initiés, ces hypothèses sont souvent malmenées.

Les rendements peuvent être asymétriques. Ils peuvent présenter des queues épaisses. Ils peuvent dépendre de quelques épisodes extrêmes, par exemple des annonces réglementaires, des gaps d’ouverture ou des périodes de stress de marché. Une stratégie peut afficher un Sharpe très convenable tout en étant portée par un petit nombre de trades décisifs. Ce n’est pas forcément illégitime. C’est simplement une information qu’un Sharpe seul ne contient pas.

Le vrai problème, la salle des essais non montrés

Le défaut le plus sérieux du Sharpe dans un contexte de recherche n’est pas seulement statistique, il est procédural. Un Sharpe observé après un seul test a une signification. Un Sharpe observé après cent variantes a une autre signification. Après mille, il commence à ressembler à la meilleure photo d’une séance où l’on a pris mille clichés.

Voici le point central. Si vous testez assez de règles, de seuils, de fenêtres de détention, de filtres de liquidité, de neutralisations sectorielles et de variantes de coûts, l’une d’elles finira presque mécaniquement par produire un Sharpe flatteur, même si le signal sous-jacent est faible ou inexistant. Ce phénomène est connu, documenté, et parfaitement banal. Il n’a rien de scandaleux. Ce qui l’est davantage, c’est de l’omettre.

Pourquoi les stratégies sur initiés sont particulièrement exposées

Les signaux issus des déclarations d’initiés ont de vraies raisons économiques d’exister. Les dirigeants connaissent mieux leur entreprise que le marché, l’information se diffuse avec frictions, et la valeur informative varie selon le type d’initié, la taille de la transaction, le contexte de valorisation, la concentration des achats, ou la proximité d’événements corporate. C’est précisément pour cela que le terrain est fertile, et donc dangereux.

Un terrain fertile invite à tester beaucoup de variantes plausibles. Achat du CEO seulement, achat groupé de plusieurs insiders, exclusion des plans automatiques, filtrage sur small caps, délai d’exécution à J+1 ou J+2, holding period de 20, 60 ou 120 jours, neutralisation beta ou non, winsorisation ou non. Chacune de ces décisions peut être défendable. Ensemble, elles créent un risque massif de sélection ex post.

Le Deflated Sharpe Ratio, une correction pour adultes consentants

Le Deflated Sharpe Ratio a été popularisé par David H. Bailey et Marcos López de Prado pour répondre à ce problème. L’idée n’est pas de “punir” un bon backtest. L’idée est de demander si le Sharpe observé reste impressionnant une fois pris en compte le fait que l’on a probablement essayé plusieurs choses, et que les rendements ne suivent pas toujours une jolie loi normale.

L’intuition du DSR

Le DSR estime la probabilité qu’un Sharpe observé soit réellement supérieur à zéro après correction de deux familles de biais.

Premièrement, la distribution des rendements peut présenter asymétrie et kurtosis. Un Sharpe de 1,2 n’a pas la même signification statistique si les rendements sont sages ou s’ils ressemblent à une collection de petites journées calmes et de quelques accidents.

Deuxièmement, il faut tenir compte du nombre de tests, ou plus précisément du nombre de stratégies effectivement essayées, ainsi que de leur dépendance. Dix variantes très corrélées ne valent pas dix expériences indépendantes. Mille variantes légèrement différentes ne valent pas non plus une seule idée originale.

Le DSR cherche donc un seuil de Sharpe “attendu par chance” compte tenu de cet environnement de recherche, puis compare le Sharpe observé à ce seuil en ajustant pour la forme empirique des rendements.

Ce que le DSR n’est pas

Le DSR n’est pas une baguette magique. Il ne transforme pas un protocole douteux en preuve. Il ne remplace pas une validation hors échantillon. Il ne corrige pas des coûts de transaction sous-estimés, des hypothèses d’exécution fantaisistes, une survivorship bias, une look-ahead bias, ou un univers reconstruit avec des données indisponibles à la date du signal.

Autrement dit, le DSR répond à une question précise, “ce Sharpe est-il encore crédible après correction de la fouille et de la non-normalité ?” Il ne répond pas à toutes les autres. C’est déjà beaucoup.

Ce qu’il faut publier pour qu’un DSR soit lisible

Un article ou un memo de recherche qui cite un DSR sans publier les ingrédients essentiels ne rend pas service au lecteur. Pour interpréter correctement le chiffre, il faut au minimum :

la longueur de l’échantillon,
la fréquence des rendements,
le Sharpe observé,
l’asymétrie et la kurtosis, ou de quoi les estimer,
le nombre de stratégies testées, ou une approximation défendable,
le degré de dépendance entre ces stratégies, si possible,
la définition exacte des coûts et frictions,
la procédure de sélection finale.

Sans cela, un DSR a parfois une allure très scientifique, mais il reste suspendu dans le vide.

Tests multiples, p-hacking, et autres sports de salle de marché

Le concept de tests multiples n’est pas propre à la finance. Il est omniprésent en médecine, en psychologie, en génomique. Si vous lancez assez d’hypothèses, certaines “marcheront” au seuil de significativité usuel par simple hasard. La finance quantitative a simplement ajouté des graphiques plus élégants.

Le nombre de tests, variable la plus sous-déclarée de la profession

Dans un laboratoire bien tenu, le nombre de spécifications testées est journalisé. Dans la vraie vie, il est souvent approximatif. Une partie des essais se fait dans des notebooks, une autre dans des scripts temporaires, une autre encore dans des branches Git qui n’atteignent jamais la lumière du jour. Le résultat final, lui, est présenté comme s’il avait été trouvé presque immédiatement, avec la gravité d’un archéologue devant un vase intact.

C’est précisément pourquoi nous insistons sur une discipline simple. Si le nombre exact d’essais n’est pas observable, il faut publier une borne basse, une borne haute, ou écrire n/a. Ce n’est pas une faute. C’est une information.

L’indépendance des essais, l’autre angle mort

Compter les tests ne suffit pas. Il faut aussi se demander à quel point ils sont différents. Modifier un seuil de 5 à 6 pour cent n’est pas la même chose que passer d’une stratégie de momentum à une stratégie contrariante. Les essais corrélés augmentent moins vite le risque de faux positif que les essais indépendants, mais ils l’augmentent quand même.

Le DSR, comme d’autres corrections de multiple testing, est sensible à cette structure de dépendance. Un bon papier de recherche doit donc expliquer non seulement combien de variantes ont été essayées, mais de quelle famille elles relèvent. “Nous avons testé 120 spécifications” est mieux que rien. “Nous avons testé 120 spécifications réparties en 6 familles, avec variations de seuils, fenêtres et neutralisations” est déjà beaucoup plus utile.

Pourquoi la validation hors échantillon reste indispensable

Même avec un DSR respectable, une validation hors échantillon reste le test de réalité le plus simple à comprendre. On fige la règle, puis on regarde ce qu’elle fait sur des données non utilisées pour la conception. Si la magie disparaît instantanément, le DSR n’a pas “échoué”. Il a simplement été utilisé dans un protocole incomplet.

Pour les stratégies sur transactions d’initiés, l’idéal est de cumuler plusieurs couches de validation, découpe temporelle, validation par marché, validation par sous-univers de capitalisation, et stress test des coûts. Une anomalie qui ne survit qu’en small caps américaines avant 2010 avec friction nulle n’est pas une anomalie, c’est un souvenir.

Comment nous lisons un claim de backtest sur /performance

La question n’est pas seulement académique. Elle est éditoriale. Quand nous publions ou commentons un résultat de performance, nous choisissons une manière de le qualifier. “Intéressant”, “préliminaire”, “robuste”, “fragile”, ce vocabulaire doit correspondre à des critères observables. Sinon, il ne vaut guère mieux qu’un adjectif de brochure.

Niveau 1, le Sharpe brut comme signal de départ

Un Sharpe brut peut justifier qu’on regarde plus loin. Il ne justifie pas à lui seul un titre triomphal. Si l’article ne fournit que ce chiffre, sans détail sur les coûts, la période, le nombre de trades, la concentration des gains, ni la procédure de recherche, notre lecture reste prudente.

Dans cette catégorie, les formulations honnêtes ressemblent à ceci :

“Le signal présente un Sharpe in-sample de n/a, à confirmer hors échantillon.”
“La performance est sensible aux hypothèses de coûts.”
“Le nombre de variantes testées n’est pas documenté.”

Ce n’est pas austère par goût. C’est austère par hygiène.

Niveau 2, le Sharpe contextualisé

Le niveau suivant consiste à enrichir le Sharpe avec des métriques de dispersion et de robustesse, hit rate, drawdown, concentration des profits, turnover, exposition factorielle, sensibilité aux coûts, et stabilité dans le temps. À ce stade, on commence à voir si la stratégie gagne de manière répétée ou si elle a simplement eu raison très fort quelques fois.

Pour des signaux d’initiés, nous regardons aussi la distribution des événements. Une stratégie qui dépend de très rares achats de fondateurs sur microcaps est différente d’une stratégie qui capte un effet plus diffus sur un large univers. Les deux peuvent être intéressantes. Elles n’ont pas le même risque d’implémentation.

Niveau 3, le Sharpe déflaté et la preuve procédurale

Le DSR intervient ici. Il ne remplace pas le reste, mais il marque une différence importante entre “nous avons trouvé un chiffre” et “nous avons essayé de mesurer la probabilité que ce chiffre soit un artefact de recherche”.

Quand un papier publie un DSR, nous voulons savoir d’où vient le nombre de tests. Est-il compté à partir d’un registre réel des expériences, estimé à partir d’une famille de spécifications, ou simplement supposé ? Nous voulons aussi savoir si la stratégie finale a été choisie avant ou après l’examen détaillé des résultats. Cette distinction est moins philosophique qu’elle en a l’air. Elle sépare la recherche de la réécriture.

Ce que nous faisons quand les “vrais chiffres” manquent

Le sous-titre de cet article parle de “nos vrais chiffres”. La réalité de cette livraison est plus modeste, la section DATA fournie ici ne contient aucun bloc de performance. Nous avons en revanche notre base de 162000 filings, ce qui dit quelque chose sur la profondeur du terrain de jeu, pas sur le score du match.

Dans ce cas, la seule attitude sérieuse est de ne pas feindre un calcul. Nous n’allons pas simuler un Sharpe, inventer un nombre d’essais, ou produire un DSR de théâtre. Nous expliquons donc le cadre de lecture, et nous laissons les cases chiffrées à n/a jusqu’à ce qu’un protocole complet soit disponible. C’est moins satisfaisant pour le lecteur pressé. C’est plus utile pour le lecteur qui gère de l’argent.

Ce qu’un bon reporting devrait contenir, noir sur blanc

Si l’on veut que les claims de backtest deviennent comparables, il faut standardiser un minimum le reporting. La finance adore les standards quand ils arrangent la distribution commerciale. Elle pourrait aussi les aimer quand ils améliorent la qualité de preuve.

Le kit minimum d’un article de performance crédible

Voici le socle que nous recommandons pour toute publication de stratégie quantitative, y compris sur signaux d’initiés :

Univers investissable
Marché, capitalisations incluses, critères de liquidité, exclusions, traitement des delistings.
Définition du signal
Règle exacte, timestamp, délai entre publication du filing et exécution, traitement des corrections et amendements.
Période et découpe
In-sample, validation, out-of-sample, et raison de cette découpe.
Coûts et frictions
Commissions, bid-ask, impact si pertinent, contraintes de capacité.
Métriques de performance
Rendement annualisé, volatilité, Sharpe, drawdown, hit rate, turnover, concentration des gains.
Journal de recherche
Nombre de variantes testées, familles de spécifications, critères de sélection.
Correction de multiple testing
DSR, ou à défaut une autre procédure explicitée.
Stress tests
Sensibilité aux coûts, sous-périodes, sous-univers, décalage d’exécution.

C’est plus long qu’un tweet. C’est aussi plus proche d’une preuve.

Le cas particulier des filings d’initiés

Les données de transactions d’initiés ajoutent quelques pièges spécifiques. Le timestamp réglementaire n’est pas toujours le timestamp de disponibilité exploitable. Les achats automatiques, les plans de cession, les dons, les transactions indirectes, les dérivés, et les amendements peuvent polluer un signal si l’on ne les traite pas proprement. Les règles de divulgation diffèrent selon les juridictions. Les délais de publication aussi.

Sur ce point, un tableau comparatif des cadres réglementaires aide à comprendre pourquoi un backtest “global” peut mélanger des réalités très différentes.

Market	Regulator	Rule	Deadline	Notes
FR	AMF	MAR Art 19	T+3	Notification des transactions des personnes exerçant des responsabilités dirigeantes et personnes liées, sous le régime MAR.
UE	ESMA / autorités nationales	MAR Art 19	T+3	Cadre harmonisé, mise en œuvre et diffusion via les autorités nationales compétentes.
US	SEC	Section 16 / Form 4	T+2	Déclarations électroniques via EDGAR pour de nombreuses transactions d'initiés corporate insiders.

Délais de déclaration indicatifs pour situer le timestamp réglementaire. Le délai légal n'est pas toujours le délai d'ingestion exploitable par un backtest.

La tentation de résumer trop vite

Un reporting standardisé n’empêche pas les erreurs, mais il réduit la place laissée à l’ambiguïté. Il force aussi une discipline salutaire, celle de distinguer entre ce qui est observé et ce qui est supposé. Dans notre expérience, beaucoup de désaccords sur la qualité d’un backtest ne portent pas sur les maths. Ils portent sur les omissions.

Un exemple typique, “Sharpe 1,5 net de coûts”. Très bien. Quels coûts, sur quel univers, avec quel turnover, et après combien de variantes ? Sans ces réponses, “net de coûts” signifie surtout “coûts que nous avons choisis”.

DSR, oui. Fétichisme du DSR, non.

Il faut éviter l’erreur symétrique, celle qui consisterait à traiter le DSR comme un sceau final de vérité. C’est un outil de contrôle, pas un sacrement.

Un DSR élevé peut coexister avec une stratégie peu investissable

Une stratégie peut survivre à la correction de multiple testing et rester peu utile en pratique. Par exemple si elle dépend d’un univers trop illiquide, si sa capacité est dérisoire, si ses rendements sont concentrés sur des épisodes rares, ou si son exécution réelle est plus lente que l’hypothèse de backtest. Le DSR vous dit quelque chose sur la crédibilité statistique du Sharpe. Il ne vous dit pas si vous pouvez déployer 50 millions dessus sans casser le jouet.

Un DSR modeste n’enterre pas forcément une idée

À l’inverse, un DSR décevant ne signifie pas toujours qu’il faut jeter le signal. Il peut indiquer que la famille de recherche a été trop large, que l’idée est réelle mais faible, ou qu’elle nécessite une meilleure spécification économique. Beaucoup de signaux utiles ne sont pas des machines à alpha autonomes. Ils servent de filtres, de variables explicatives, ou de briques dans un modèle plus large.

Pour les transactions d’initiés, c’est souvent le bon usage. Le signal brut peut être modeste, mais informatif conditionnellement à d’autres variables, valorisation, qualité, surprise de résultats, structure de propriété, ou régime de marché. Là encore, un protocole propre fait la différence entre une intuition exploitable et une anecdote bien habillée.

Ce que nous attendons de la suite

La prochaine étape naturelle pour un article comme celui-ci est simple, publier le tableau de bord chiffré quand les données de performance seront branchées. Cela inclut le Sharpe observé, la longueur de l’échantillon, la fréquence des rendements, l’asymétrie, la kurtosis, le nombre d’essais journalisés, et le DSR correspondant. Sans cela, le cadre reste théorique, même s’il est correct.

Le bon côté de cette sobriété est qu’elle crée une dette utile. Une fois les chiffres disponibles, il ne faudra pas réécrire la méthode. Il suffira de remplir les cases.

Si vous ne retenez qu’une règle, prenez celle-ci, un Sharpe de backtest n’est pas une réponse, c’est une invitation à poser de meilleures questions. La prochaine question concrète, pour nous comme pour tout lecteur sérieux, est donc triviale et décisive, combien de variantes ont réellement été testées dans notre pipeline sur les 162000 filings, et quelle part de ce Sharpe supposé survit une fois cette armoire ouverte ?

Sharpe et DSR : évaluer la crédibilité des backtests

Sharpe contre DSR, le procès-verbal plutôt que le storytelling