Le biais de survie dans les études sur les achats d'initiés, Sigma Journal

InsidersTradesSigma

Pourquoi le biais de survie est particulièrement toxique pour les études d’initiés

Le biais de survie apparaît quand l’univers historique exclut, explicitement ou non, les titres qui ont cessé d’exister ou qui ont quitté la cote. Dans un backtest actions classique, le problème est déjà sérieux. Dans un backtest sur initiés, il est pire, pour trois raisons.

Les initiés achètent souvent dans la détresse

Une part non négligeable des achats d’initiés intervient après de fortes baisses, lors de recapitalisations, en sortie d’avertissement sur résultats, ou dans des petites capitalisations sous pression. C’est précisément dans cette zone que le risque de radiation, de fusion à vil prix ou de faillite augmente.

Si ces dossiers disparaissent de l’historique, la stratégie semble avoir acheté des points bas courageux qui ont ensuite “rebondi”. En réalité, une fraction de ces paris finit dans un communiqué de restructuration, puis dans un code valeur mort. Le backtest poli n’en parle plus.

Les sorties de cote ne sont pas neutres

Une société radiée n’est pas un simple blanc dans la matrice. Elle produit un rendement terminal, parfois brutalement négatif, parfois positif en cas d’OPA, parfois ambigu quand la cotation devient illiquide avant disparition. Ignorer cette sortie revient à remplacer un rendement observé par une absence de rendement. C’est une opération comptable très pratique, et très fausse.

Dans les bases académiques sérieuses, ce point est traité par l’intégration des delisting returns ou d’équivalents méthodologiques. C’est l’une des différences majeures entre un papier de recherche exploitable et un PDF commercial qui “trouve” un Sharpe de 1,8 sur une niche microcap.

Le problème est concentré dans les segments les plus séduisants

Les signaux d’initiés sont souvent les plus forts, du moins en apparence, dans les petites capitalisations, les titres peu suivis, les situations spéciales et les marchés moins couverts. Ce sont aussi les zones où les historiques sont les plus sales, les identifiants changent, les tickers recyclent, les fusions se multiplient et les radiations sont fréquentes.

Autrement dit, plus un segment paraît prometteur, plus il faut se méfier de la qualité de l’univers. La finance quantitative aime les anomalies. Les anomalies aiment les bases incomplètes.

Ce que la littérature sérieuse fait, et ce que beaucoup d’études omettent

La bonne nouvelle, c’est que le problème est ancien, documenté, et techniquement traitable. La mauvaise, c’est qu’il reste souvent esquivé.

Les bases survivorship-bias-free ne sont pas un luxe

Dans la littérature américaine, les travaux robustes sur les initiés s’appuient généralement sur des données réglementaires d’initiés appariées à des bases de rendements incluant les titres disparus. Le standard historique côté marché est CRSP, précisément parce que la base conserve les titres délistés et documente les événements de sortie. C’est une banalité académique, mais elle mérite d’être répétée.

Quand Lakonishok et Lee étudient la rentabilité des transactions d’initiés, ou quand des travaux ultérieurs revisitent le sujet, la crédibilité des résultats repose autant sur l’échantillon que sur la régression. Sans univers survivorship-bias-free, la sophistication statistique sert surtout à mesurer une erreur proprement.

Les bases réglementaires ne suffisent pas à elles seules

Un registre de déclarations d’initiés, qu’il s’agisse de la SEC, de l’AMF ou d’un autre régulateur européen, dit qu’une personne liée a acheté ou vendu un instrument. Il ne garantit pas que vous saurez reconstituer correctement l’émetteur, son historique de cotation, ses changements de nom, ses opérations sur titres, son éventuelle fusion, puis son rendement terminal.

Le travail difficile est l’appariement et la persistance des identifiants. Un ticker n’est pas un identifiant historique fiable. Un ISIN change dans certains cas. Un nom d’émetteur change plus souvent qu’un CFO prudent. Il faut donc bâtir une clé d’entité persistante, puis y rattacher les événements corporate et les rendements.

L’Europe ajoute une couche de complexité réglementaire et de marché

Sous le régime MAR, les personnes exerçant des responsabilités dirigeantes et leurs personnes étroitement liées doivent notifier certaines transactions, avec publication dans un délai court. C’est utile, mais cela ne résout pas la construction d’un univers historique investissable. Les marchés européens sont fragmentés, les sources de prix et de corporate actions aussi, et les radiations peuvent suivre des procédures hétérogènes selon la place, l’émetteur et l’opération.

Le résultat pratique est que beaucoup d’études paneuropéennes ont un angle mort. Elles récupèrent les notifications, joignent les prix disponibles aujourd’hui, puis testent. Cela produit un historique “propre”, au sens où il manque surtout ce qui dérange.

Market	Regulator	Rule	Deadline	Notes
FR	AMF	MAR Art 19	T+3	Notifications PDMR/PCA publiées selon le régime européen. La donnée réglementaire ne couvre pas à elle seule les rendements de sortie ni l’historique complet des radiations.
UE	ESMA + autorités nationales	MAR Art 19	T+3	Cadre harmonisé, exécution et diffusion décentralisées. Les identifiants et historiques de marché restent fragmentés selon les places.
US	SEC	Section 16 / Forms 3, 4, 5	Form 4 en général T+2	Écosystème académique plus mature grâce à l’appariement classique SEC + CRSP, qui réduit le biais de survie côté rendements.

Les obligations de déclaration aident à observer le signal, pas à corriger automatiquement le biais de survie dans les rendements.

1. Partir des déclarations, mais ne pas s’y arrêter

Le point de départ est le registre des transactions d’initiés, ici une base interne de 162 000 filings. Chaque déclaration est normalisée, puis rattachée à une entité émettrice persistante. Cela suppose de résoudre les variations de nom, les changements de ticker, les classes d’actions et les erreurs de saisie réglementaires.

Une déclaration n’entre pas dans l’univers parce qu’elle existe aujourd’hui, mais parce qu’elle existait à la date du signal et concernait un instrument alors négociable selon nos règles.

2. Reconstruire l’éligibilité à date

L’univers doit être point-in-time. Cela signifie qu’à chaque date de backtest, nous n’utilisons que les informations disponibles alors, et la liste des titres effectivement cotés ou encore actifs à cette date. Une société radiée en 2022 existe dans l’univers de 2021. Une société introduite en 2024 n’existe pas en 2020, même si son ticker est très pratique dans la base actuelle.

Cette discipline vaut aussi pour les métadonnées, capitalisation, place de cotation principale, devise, flottant, secteur, et statut de négociation.

3. Intégrer les corporate actions et les événements de sortie

Les splits et dividendes sont la partie facile. Le cœur du sujet est ailleurs, OPA, fusions, retraits obligatoires, faillites, liquidations, suspensions prolongées et radiations administratives. Chaque type d’événement appelle une règle de rendement terminal.

En cas d’acquisition en numéraire, la sortie est valorisée au prix de l’offre effectivement réalisée, selon le calendrier de l’opération.
En cas d’échange de titres, la position migre vers le titre acquéreur selon la parité, ou est liquidée selon la règle de portefeuille choisie.
En cas de faillite ou radiation sans valeur résiduelle observable, le rendement terminal doit refléter cette issue, pas une disparition commode.
En cas de suspension durable, une convention prudente est nécessaire, documentée et appliquée de façon uniforme.

Le point n’est pas d’être parfait, mais d’être explicite et conservateur.

4. Garder les entités mortes dans la base maîtresse

Une erreur fréquente consiste à enrichir l’univers historique à partir d’une table de référence courante, qui ne contient plus les émetteurs disparus. Nous faisons l’inverse, la base maîtresse conserve les entités mortes, leur dernier statut connu, leur chronologie d’événements et les liens d’identifiants successifs.

C’est moins élégant en base de données. C’est beaucoup plus élégant en recherche.

5. Journaliser les exclusions, pas seulement les positions

Toute exclusion doit être traçable. Titre sans prix exploitable à date, instrument non action, déclaration amendée, doublon, opération intragroupe, ligne corporate action non résolue, tout cela doit laisser une trace. Sinon, l’étude devient impossible à auditer.

Le journal d’exclusion est souvent plus instructif que le backtest lui-même. Il dit où la donnée résiste. Et la donnée résiste surtout là où les performances rêvées se fabriquent.

Les cas limites qui ruinent les beaux graphiques

Les delistings ne sont pas un seul problème, mais une famille de problèmes. Les traiter comme une case binaire “actif ou inactif” est une bonne façon de se tromper proprement.

Fusions et OPA, le faux ami du survivorship bias

Une sortie de cote par acquisition peut être favorable à l’actionnaire. Si on l’ignore, on ne crée pas seulement un biais optimiste, on peut aussi créer un biais pessimiste selon la règle de portefeuille. La bonne pratique n’est donc pas “compter toutes les radiations comme zéro”, ce qui serait absurde, mais attribuer le bon rendement de sortie selon la nature de l’opération.

La difficulté est opérationnelle, pas conceptuelle. Il faut la date effective, le mode de paiement, la parité éventuelle, et la règle de réinvestissement.

Faillites et liquidations, le cas que tout le monde préfère oublier

C’est ici que l’absence des morts gonfle le plus les Sharpes. Les achats d’initiés dans des sociétés en difficulté peuvent être sincères, informés, ou simplement malheureux. Le marché n’a aucune obligation de récompenser la sincérité. Si ces titres disparaissent du jeu de données, la stratégie hérite d’un passé plus héroïque qu’elle ne le mérite.

Suspensions longues et illiquidité terminale

Le cas le plus irritant est celui d’un titre suspendu pendant des mois, puis radié, avec peu ou pas de transactions terminales exploitables. Toute convention est imparfaite. Mais l’absence de convention est pire, car elle revient souvent à maintenir une dernière valeur cotée obsolète ou à supprimer la ligne.

Dans un cadre prudent, il faut définir un traitement uniforme, puis publier l’analyse de sensibilité. Une stratégie robuste ne devrait pas changer de nature selon qu’on applique une décote terminale de x ou y. Ici, faute de chiffres DATA fournis, x et y resteront n/a. La méthode, elle, ne l’est pas.

Ce que cela change dans l’interprétation des études publiées

Corriger le biais de survie ne produit pas seulement des rendements plus faibles. Cela change la manière de lire toute la littérature sur les initiés.

Les résultats académiques modestes sont souvent plus crédibles

Quand une étude bien construite trouve un excès de rendement économiquement intéressant mais loin des promesses commerciales, il ne faut pas la juger timide. Il est probable qu’elle compte les dossiers disparus, les coûts implicites, les délais de publication et les frictions de mise en œuvre. Bref, elle décrit un marché, pas une brochure.

À l’inverse, un papier non académique qui annonce des performances très élevées sans discussion détaillée de l’univers, des delistings et des corporate actions mérite une lecture sceptique. Pas cynique, sceptique. La nuance est utile.

Les comparaisons entre pays demandent une hygiène de données rare

Comparer l’effet des achats d’initiés entre France, Allemagne, Royaume-Uni et États-Unis est séduisant. Le risque est de comparer des régimes de données plutôt que des marchés. Si un pays a une meilleure couverture historique des radiations et un autre une meilleure normalisation des déclarations, l’écart de performance peut venir de la tuyauterie.

C’est pourquoi nous privilégions les comparaisons dont les règles d’univers et de sortie sont harmonisées ex ante. Sinon, le tableau comparatif est précis comme une montre sans aiguilles.

Les petits échantillons sont encore plus fragiles

Sur des sous-univers étroits, par exemple achats de CEO sur small caps françaises, quelques delistings manquants suffisent à transformer la distribution des rendements. Un ou deux dossiers catastrophiques retirés de l’historique peuvent faire basculer la moyenne, la skewness et le Sharpe.

Autrement dit, plus l’échantillon est petit et plus le protocole de survie doit être strict. C’est rarement ce qu’on observe.

Ce que nous publions, et ce que nous refusons de publier

Notre ligne éditoriale sur les backtests d’initiés est simple, un résultat non auditable n’est pas un résultat. Cela a deux conséquences.

Nous documentons l’univers avant la performance

Avant de montrer un Sharpe, nous voulons pouvoir répondre à des questions peu glamour et décisives.

Quels émetteurs étaient éligibles à chaque date ?
Comment les identifiants ont-ils été chaînés dans le temps ?
Quel traitement a été appliqué aux retraits de cote, faillites et suspensions ?
Quelle proportion des signaux a été exclue, et pourquoi ?
Les résultats survivent-ils à des conventions de sortie plus sévères ?

Si ces réponses sont absentes, le graphique de performance est un accessoire de communication.

Nous préférons un Sharpe plus bas à un mythe plus haut

La correction du biais de survie réduit généralement l’attrait visuel des résultats. C’est un excellent signe. Une stratégie qui reste intéressante après avoir réintégré les morts mérite d’être étudiée. Une stratégie qui ne fonctionne que dans un cimetière vidé de ses tombes mérite surtout d’être refermée.

Nous séparons signal économique et exploitabilité

Un achat d’initié peut contenir de l’information, sans pour autant produire une stratégie facilement monétisable après publication réglementaire, coûts de transaction, contraintes de liquidité et événements de sortie. Corriger le biais de survie aide justement à distinguer ces deux questions.

Le signal peut exister. Le portefeuille, lui, doit vivre dans le monde réel, où les sociétés fusionnent, font faillite, suspendent leur cotation et cessent de répondre aux fantasmes du backtester.

Ce qu’il faut vérifier dans toute étude d’initiés avant de croire le chiffre

Pour finir utilement, voici la liste de contrôle minimale que nous appliquons à toute étude, y compris aux nôtres.

Univers et identifiants

L’étude précise-t-elle comment les émetteurs disparus sont conservés dans l’historique ? Utilise-t-elle des identifiants persistants ou seulement des tickers actuels ? Les changements de nom et de place sont-ils gérés ?

Rendements de sortie

Les delisting returns, ou leur équivalent méthodologique, sont-ils intégrés ? Les OPA en cash, échanges de titres, faillites et liquidations ont-ils des règles distinctes ? Les suspensions longues sont-elles traitées explicitement ?

Point-in-time

Les métadonnées et critères de filtre sont-ils disponibles à date, ou reconstruits à partir d’une photo actuelle de la base ? La réponse importe plus que le style du code.

Sensibilité

Les performances sont-elles robustes à des conventions de sortie prudentes ? Si un résultat s’effondre dès qu’on réintroduit quelques émetteurs disparus, ce n’est pas un facteur, c’est une illusion d’archivage.

Auditabilité

Peut-on reproduire le nombre de signaux, les exclusions et les positions terminales ? Si non, la confiance doit être proportionnelle au silence méthodologique, c’est-à-dire faible.

Le point essentiel est simple. Le biais de survie ne rend pas seulement les études d’initiés trop optimistes. Il les rend parfois méconnaissables. Corriger ce biais exige un univers point-in-time, des identifiants persistants, des règles de sortie explicites et une tolérance limitée pour les trous de données flatteurs. La prochaine étape concrète est donc moins glamour qu’un nouveau facteur, mais plus utile, publier, pour chaque backtest d’initiés, un appendice standardisé sur les delistings, les exclusions et les conventions de rendement terminal. La question ouverte est nette, combien de stratégies “robustes” survivraient à cette simple discipline ?