Les angles morts, et comment ne pas se raconter d'histoires
L'absence de nom empêche certaines validations
Le principal coût scientifique de l'anonymisation est la validation hors échantillon de certaines hypothèses comportementales. Si vous observez qu'une catégorie "direction exécutive" semble bien timer les creux, vous ne savez pas si le résultat vient d'une population large ou de quelques individus exceptionnellement habiles qui reviennent souvent. Cette distinction compte pour la stabilité du signal.
La parade est simple, il faut privilégier les tests qui ne dépendent pas de l'identité. Par exemple :
- rendement futur conditionnel à un cluster acheteur par rôle,
- réaction du marché à court terme après publication,
- dispersion des rendements selon intensité du score,
- robustesse par taille d'émetteur, secteur et régime de volatilité.
Ce ne sont pas des seconds choix. Ce sont les bons tests pour ce type de données.
Le risque de double comptage et d'agrégation abusive
Sans identifiants individuels publics, on peut être tenté de considérer plusieurs déclarations proches comme autant de personnes distinctes. Prudence. Selon la structure de publication, certaines opérations peuvent être fractionnées, corrigées ou liées à plusieurs lignes instrumentales. Il faut donc dédupliquer au mieux par combinaison de date, instrument, sens, volume et catégorie de rôle, selon les règles de la source.
Autre écueil, additionner sans discernement des opérations de nature différente. Un exercice d'option suivi d'une vente n'est pas un achat puis une trahison. C'est souvent de la plomberie de rémunération. La plomberie est essentielle dans un immeuble. Elle n'annonce pas forcément la météo.
Le contexte réglementaire et la discipline de publication
Les délais de déclaration et de publication influencent la fraîcheur du signal. Dans tous les marchés, le chercheur doit distinguer date de transaction, date de notification et date de diffusion publique. Le backtest honnête se cale sur la première date réellement observable par le marché, pas sur la date économique de l'opération si elle n'était pas encore publique. C'est un détail qui transforme des stratégies brillantes en stratégies imaginaires.
Pour la Suisse, où la diffusion passe par des canaux structurés de marché, cette discipline est indispensable. Sans elle, on attribue au signal une réactivité qu'il n'avait pas.
Ce que ferait un investisseur sérieux avec ces données
Un pipeline de recherche réaliste
La bonne nouvelle est que l'anonymisation ne condamne pas l'usage pratique. Elle impose simplement un pipeline différent.
Étape 1. Nettoyer les événements
Exclure ou marquer séparément les attributions, conversions, exercices, transferts sans achat économique net. Conserver une taxonomie stricte des types d'opérations.
Étape 2. Mapper les rôles
Réduire les intitulés à quelques classes stables, direction exécutive, conseil, personnes proches, autres. Mieux vaut quatre classes robustes que douze catégories pseudo-fines et instables.
Étape 3. Construire un score d'intensité
Normaliser les montants, pondérer par rôle, ajouter la rareté et la concentration. Le score doit être monotone et explicable. Si vous ne pouvez pas l'expliquer à un comité de risque sans diapositives psychédéliques, il est probablement trop compliqué.
Étape 4. Contextualiser
Ajouter des variables d'état, drawdown récent, surprise de résultats, volatilité, taille, secteur, momentum antérieur.
Étape 5. Tester modestement
Commencer par des tris en quintiles, des fenêtres de rendement simples, des tests de robustesse par sous-univers. Le but n'est pas de publier une ode au Sharpe ratio. Le but est de savoir si le signal survit à la réalité.
Où le signal a le plus de chances d'apparaître
Sans chiffres propriétaires à citer ici, puisque aucune extraction spécifique de notre base de 162 000 déclarations n'a été fournie pour cet article, on peut néanmoins formuler des hypothèses de travail crédibles, alignées avec la littérature et avec la structure suisse :
- dans les achats plutôt que les ventes,
- dans les clusters plutôt que les transactions isolées,
- dans les rôles exécutifs plutôt que les catégories périphériques,
- après des drawdowns marqués plutôt qu'en plein momentum euphorique,
- dans les small et mid caps où l'asymétrie informationnelle est plus élevée,
- en excluant soigneusement les opérations non discrétionnaires.
Ce n'est pas une recette magique. C'est simplement l'endroit où la densité de signal est la plus plausible.
Le bénéfice secondaire, une meilleure hygiène analytique
Il y a même un avantage discret à ce régime moins nominatif. Il force l'analyste à moins fétichiser les individus. Les bases américaines encouragent parfois une lecture people de l'insider trading, tel CEO génial, tel fondateur visionnaire, tel directeur financier qui "ne se trompe jamais". C'est séduisant, et souvent fragile hors échantillon.
Le cadre suisse oblige à revenir à des régularités plus structurelles. Quel rôle achète. Combien. Avec qui. Quand. Dans quel état du titre. C'est moins glamour. Les rendements, eux, se moquent du glamour.
Verdict, oui, mais avec une ambition bien calibrée
Ce que l'on peut raisonnablement extraire
Oui, on peut extraire du signal des déclarations d'initiés anonymisées en Suisse. Pas tout le signal. Pas le même signal que sur un marché à divulgation nominative. Mais suffisamment pour faire de la recherche utile, et potentiellement pour construire des indicateurs exploitables.
Le cœur de la méthode tient en trois mots, rôle, agrégation, intensité. Le rôle remplace une partie de l'identité. L'agrégation remplace le suivi individuel. L'intensité remplace la narration.
Ce qu'il faut accepter de laisser tomber
Il faut renoncer à l'illusion d'une lecture psychologique des insiders. Sans noms, on ne saura pas si tel administrateur est un acheteur de conviction ou un collectionneur de signaux cosmétiques. Et c'est très bien ainsi. Une bonne base de données n'est pas un roman russe.
Le vrai test est plus austère, mais plus utile, les catégories de rôles et les clusters d'activité contiennent-ils une information incrémentale sur les rendements futurs ou sur la probabilité de mauvaise interprétation du marché ? C'est là que la Suisse devient intéressante. Parce qu'elle oblige à poser une question empirique propre, au lieu de confondre transparence maximale et signal maximal.
La prochaine étape concrète est simple, backtester un score d'intensité par rôle sur les achats suisses, en utilisant la date de publication observable, puis vérifier si le surplus d'information vient surtout des clusters exécutifs après drawdown. Si le signal existe, c'est probablement là qu'il se cache encore. Sinon, il faudra admettre que l'anonymat n'a pas tué le signal, mais qu'il a peut-être surtout tué notre envie de faire le tri.