La digitalisation des stratégies alternatives
Depuis les récentes évolutions en matière de collecte et de traitement de données, nombreux sont les fonds qui utilisent le machine learning. Ils l’utilisent pour créer des modèles automatisés et capables de se nourrir de beaucoup d’informations pour chercher des corrélations entre les caractéristiques des actifs et leur performance.
Le machine learning : définition
Le machine learning consiste à entraîner un modèle statistique capable d’exploiter de grandes quantités de données (« big data ») afin d’anticiper la performance future d’un actif.
Trois grandes familles de modèles sont généralement répertoriées.
Dans un premier cas (l’apprentissage supervisé), une variable cible est définie, et la machine cherche à trouver des liens et à créer des prédictions de la variable cible à partir de paramètres prédéfinis. Par exemple, si la variable cible est la valeur d’une action dans quelques mois, le modèle évaluera les différents paramètres (comme l’inflation, le comportement d’autres actifs, etc.) pour essayer de tirer des conclusions sur le cours de l’action.
Dans un second cas (l’apprentissage non supervisé), il n’y a pas de variable cible ni de paramètres prédéfinis, et le modèle cherche des liens dans les données pour tirer des conclusions prédictives. Dans ce cas, il est possible de donner directement un grand nombre de données au modèle, qui sera à même de trouver des conclusions sans carcans. Par exemple, le modèle pourrait conclure qu’il est possible de prédire la performance d’un certain type d’entreprises à partir du cours actuel du pétrole et de celui du cacao.
Enfin, dans un dernier cas, appelé en anglais le « deep learning » (apprentissage profond), un réseau de neurones permet à la machine de tirer des conclusions sur les différentes variables.
Un réseau de neurones artificiel est une méthode d’apprentissage profond s’apparentant au réseau de neurones humain et au fonctionnement du cerveau humain. Les données entrent dans le réseau et traversent plusieurs « couches » dans le modèle pour être traitées et analysées. Cela permet au modèle de tirer des conclusions sur les différents liens entre les données et de produire des analyses. Par exemple, un réseau de neurones peut être utilisé pour prévoir la météo. C’est aussi le cas pour certains modèles de machines jouant aux échecs, comme l’AlphaZero.
Pour créer et entraîner le modèle, on sépare les données en différents échantillons, pour obtenir un échantillon d’entraînement, un échantillon de validation et un échantillon de test. Le premier échantillon sert à former le modèle, tandis que le second l’améliore pour que la véracité du modèle soit enfin testée grâce aux données de test.
Une fois le modèle créé et entraîné, il est prêt à être mis à disposition des gérants pour être utilisé dans des conditions réelles. Certaines sociétés de gestion utilisent des équipes dédiées, supervisées par les gérants, pour créer des modèles de machine learning ; d’autres sociétés de gestion préfèrent faire appel à des consultants et des académiciens externes pour enrichir la qualité de leurs modèles de machine learning.
Les utilisations du machine learning
Chaque famille de machine learning contient différentes sortes de modèles en fonction des besoins et des paramètres disponibles. Ils sont à même de tirer différentes conclusions sur les variables évaluées.
Le principe prédictif conduisant à classer la variable dans des catégories est un exemple intéressant de ce qu’un modèle de machine learning est à même de produire. Ce modèle est souvent utilisé avec une classification binaire : selon les caractéristiques d’un actif, il est réparti soit dans la classe des actifs « gagnants », soit dans la classe des actifs « perdants ». Le gérant peut ainsi tirer des conclusions sur les actifs à acheter et sur les actifs à vendre à découvert.
Les modèles peuvent aussi traiter une variable cible en permettant une évaluation quantitative de son évolution. Certaines modélisations étaient déjà réalisables sans l’intervention de la machine pour établir des liens entre les variables, par exemple grâce à une régression linéaire. Cette méthode permet de prévoir une variable Y en fonction de la valeur d’une variable X, et établit une relation linéaire entre les deux variables sous la forme :
En déterminant a et b, on peut établir un lien entre l’évolution de la variable X et l’évolution de Y. Lorsque la régression linéaire est simple, comme dans l’équation ci-dessus, une seule variable permet de déterminer la variable cible, Y. Mais il existe également des régressions linéaires multiples, et dans ce cas, plusieurs variables sont utilisées pour déterminer la cible Y. On trouve alors une équation de la forme :
Dans les faits, si une régression simple peut être modélisée par l’être humain, plus le nombre de variables utilisées pour déterminer Y est important, plus il sera complexe d’établir une équation pertinente. Le traitement rapide de données permet alors de mettre en place des régressions linéaires multiples jusque-là inenvisageables pour l’être humain. Ces régressions permettent d’établir une valeur prédictive de la variable cible en fonction des différents paramètres qui lui sont corrélés.
Les différentes évaluations des actifs sont pertinentes pour des stratégies de gestion alternative comme la stratégie « long-short ». Le machine learning permet également de remarquer des motifs dans les données permettant d’anticiper certaines crises, ce qui est utile pour les gérants cherchant à tirer parti d’une stratégie trend. Ces gérants étudient les marchés pour parier sur la hausse de certains marchés et la baisse d’autres marchés. Le machine learning leur permet de mieux anticiper certains revirements à l’aide de signes précurseurs qui sont difficilement visibles à l’œil nu.
Les avancées en matière de machine learning et en matière de traitement de données permettent de développer des modèles de plus en plus poussés. L’évaluation du sentiment de marché en est un bon exemple. Ce sentiment peut être évalué grâce à des données quantitatives, en observant les mouvements des flux d’investissement sur différents actifs par exemple. Mais le sentiment ne relève pas seulement du quantitatif, et le traitement de données permet depuis peu d’intégrer non seulement des données quantitatives, mais également des données qualitatives, comme les notes des gérants ou des dirigeants. Cette capacité à traiter le langage en est encore à ses débuts, mais pourrait connaître un essor rapide avec les développements liés à l’IA.
Les limites du machine learning
Le machine learning n’est pas exempt de risques. Nous en présentons deux importants ici : le choix du modèle et le surapprentissage (« overfitting »).
Si la machine est capable de traiter et de trouver des liens invisibles à l’œil humain parmi les données, le choix du modèle utilisé initialement incombe souvent à l’humain. Il faut donc bien choisir son modèle, car s’il n’est pas adapté à la donnée, celui-ci ne parviendra jamais à trouver des corrélations satisfaisantes entre les différents paramètres. En définissant par exemple une variable cible d’apprentissage supervisé inadéquate, les paramètres disponibles ne permettront pas de tirer des conclusions satisfaisantes offrant une réelle capacité prédictive au modèle. Ce problème se retrouve dans le choix des données : si elles ne sont pas de bonne qualité, la machine ne pourra pas tirer de conclusions satisfaisantes.
Reprenons le cas d’AlphaZero pour illustrer ce phénomène. Ce modèle de deep learning permet à la machine de jouer à des jeux de stratégies comme les échecs. Pour parvenir à cela, une intervention humaine a été faite, lorsque les règles du jeu ont été fournies à la machine. A partir de là, le modèle apprend seul les meilleures techniques pour battre son adversaire. Mais supposons que les règles fournies avaient été incomplètes, ou même que les règles du jeu de dame avaient été fournies à la place de celles du jeu d’échecs. L’Alphazero aurait tourné en vain, incapable de fournir un jeu d’échecs de qualité.
Une autre limite intrinsèque au machine learning est ce que les anglophones qualifient d’« overfitting ». Le surapprentissage apparaît lorsqu’un modèle apprend excessivement les données passées au point de perdre sa capacité de généralisation sur les données futures. Lorsque le modèle a été trop entraîné, il trouve des corrélations très fines, qui ne sont en fait que des hasards venus de l’information disponible et n’ont aucune valeur prédictive. Ces biais de prédiction le conduisent à des conclusions parfois erronées. Une manière de réduire les risques de surapprentissage est d’utiliser plusieurs modèles et d’en faire la moyenne. En recoupant les modèles entre eux, les prédictions erronées liées à un modèle spécifique tendent à disparaître : on élimine ainsi une grande partie des conclusions tirées d’un éventuel surapprentissage.
“So the world is much more correlated than we give credit to. And so we see more of what Nassim Taleb calls “black swan events” – rare events happen more often than they should because the world is more correlated”.
Cette phrase a été prononcée en 2009 par Thaler, un économiste ayant remporté le prix Nobel pour ses travaux en économie comportementale. Il nous disait que le monde devenait plus risqué en même temps qu’il devenait plus corrélé, car la chute d’un type d’actifs entraine les autres types d’actifs avec elle. De cette corrélation résulte la multiplication d’évènements imprévisibles (« black swan ») qui font souvent souffrir les marchés âprement. Dans ce contexte, la décorrélation réelle n’est plus un luxe mais une nécessité. L’investissement alternatif, par sa nature et sa capacité à évoluer, est ainsi l’ultime allié du portefeuille de demain.