A LIRE :

La guerre des DATA

Les enjeux liés à une victoire dans le sport ne sont pas uniquement sportifs. C’est toute l’économie d’une ville ou d’un pays qui profite du titre de champion comme de la signature d’une star. La perte d’un match peut s’expliquer via une multitude de raisons : une différence de niveau de jeu, choix technico-tactique, “la chance”, blessures, mauvais coaching… L’intégration de technologies dans le sport de haut niveau ne date pas d’hier mais bien de la fin des années 90. Ce n’est que récemment que l’utilisation de ces technos comme outils de décision se sont systématisées. Encore relativement nouveau pour les clubs français, nos cousins anglo-saxons (surtout ceux « down under ») ont transposé le courant de “big data” dans le sport. Phénomène de mode ou outil exceptionnel, toujours est-il que l’intégration de systèmes de partage (le cloud) doit se faire avec un certain recul. Se reposer sur les datas pour prendre des décisions implique de prendre des risques. Les businessmen, et autres traders, par qui le big data est né et dont le sport se targue d’intégrer leurs algorithmes, ont l’habitude de prendre des risques au travers de l’analyse de leur donnée sur leur écran. Quid de nos coachs et managers qui fonctionnent plus souvent « à l’instinct » ? Quand on se prépare à se lancer dans le big data sportif, il faut s’assurer d’avoir couvert ses bases. Et à l’instar du monde du business, le management par les données crée son lot de problèmes. Penchons-nous sur 8 points qu’il parait important de mettre en lumière. Que l’on soit déjà high- tech ou que l’on s’apprête à franchir le pas, il est impératif de comprendre et gérer ces risques associés au « big data » dans le sport.

La sécurité
C’est évident mais bien trop souvent ignoré dans notre monde sportif. Le vol de données numériques est en augmentation constante. La fréquence des attaques est de plus en plus importante ; 5 des 6 attaques les plus destructrices de tous les temps ont été perpétrées dans les 2 dernières années (eBay, JP Morgan Chase, Adobe, Target et Evernote).
L’espionnage industriel est commune mesure dans le monde du business. Mais il a également fait son apparition aussi dans le monde sportif. Souvenez-vous le survol de drone lors de la dernière coupe du monde ! Combien de coachs de basket avouerons avoir caché des caméras dans les tribunes de leur salle lors du shoot-around de l’équipe adverse le matin du match afin d’espionner les stratégies adverses ?
Les grandes sociétés dépensent des centaines de milliers de dollars, voir des millions, pour protéger leur data. Que faisons-nous dans le sport ? Combien de temps avant qu’un hacker se connecte à un serveur d’un club pour ensuite manipuler les datas ? Imaginez l’installation d’un virus qui vous fera perdre l’ensemble de vos précieux pattern ?

Allons vers un cas pratique où une porte dérobée vers votre serveur donne un accès à votre système intranet. L’équipe que vous allez jouer au prochain ¼ de final de la prestigieuse Champion’s League va ainsi découvrir que votre arrière droit est dans dans le rouge depuis 3 semaines avec notamment une légère pubalgie à gauche qui l’empêchera de défendre à 100% lors de débordement.
Autre cas envisageable, le hacker va simplement changer vos variables d’entraînement et ainsi vous laisser avec de mauvaises informations pour prendre vos décisions ! Rappelons que les enjeux financiers sont suffisamment importants pour motiver ce type de comportement.
« Gagner ce n’est pas tout, c’est la seule chose » comme le dit le sophrologue L. Fernandez. Et le « dopage » numérique est un moyen qui n’est pas contrôlé.
[MISE À JOUR 7 Janvier 2015 : Le directeur du scouting des Cardinal passe au tribunal pour avoir
piraté la base de donné d’une équipe adverse…). Comme quoi ce scénario « catastrophe » n’est pas si éloigné de notre réalité. On note que les spécialistes en sécurité évaluent le niveau de ce hack come « enfantin » (source : http://www.wsj.com/articles/ex-cardinals-scouting-director-to-plead-guilty-to- hacking-houston-astros-1452271222).]

Le respect de la propriété
Très proche de la sécurité, le débat sur l’utilisation des datas doit être pris en compte par les divers acteurs. Ces datas sont proches de la santé et devraient faire l’objet d’une charter d’utilisations. Ces datas ne devraient pas être vendues, utilisées ou même échangées sans l’accord explicite des joueurs. Imaginez que l’algorithme propriétaire d’un club A estime que son joueur présente un risque élevé de rupture du tendon d’Achille. Le joueur en fin de contrat quitte le club et s’apprête à signer dans le club B. Est-il déontologique pour le club A de partager ses datas avec le club B ? Il est crucial que les fédérations et le comité olympique statuent rapidement sur ce problème. On peut également imaginer que des membres ayant accès à ces datas les utilisent à des fins personnelles. Outre la publication d’études scientifiques, pensez à de la revente vers d’autres clubs tel l’espionnage mais aussi pour sécuriser la signature d’un joueur lors de négociation d’un contrat. Enfin, dernier point qui est à méditer par rapport à l’utilisation des datas, lors de la renégociation d’un contrat, les datas sont utilisées en interne bien souvent contre le joueur. Les agents n’ayant pas accès à la base de données pour se construire une défense. En parallèle, le monitoring devient de plus en plus intrusif. Il n’y a qu’un pas avant de se faire tatouer ou d’avaler un traqueur d’activité. Les associations de joueurs de la NBA et la NFL ont compris ce créneau et ont récemment engagé un directeur de la performance au sein de leurs associations respectives pour s’assurer du futur des datas récupérées et tenter de légiférer de leur utilisation. En Europe, et plus particulièrement en France, la CNIL réglemente l’utilisation des données informatiques. Cependant, nombreux sont les clubs qui font signer des avenants aux contrats qui violent les lois et libertés individuelles.

Les coûts
La capture de datas, leur agrégation, stockage, analyse et l’élaboration de stockage ont un coût. Et par dessus tout, si on se met en règle avec les 2 points précédemment cités, on augmente drastiquement la note. Budgéter cet investissement permet d’éviter 2 biais : sous-utiliser les datas en se contentant d’être un agrégateur de données ; diminuer les capacités de son staff en

le noyant de données non traitées et non applicables. L’argent c’est le nerf de la guerre. La notion de rendement est essentielle. Pouvoir se rapprocher d’un rendement de 1, c’est-à-dire que pour chaque euro dépensé, on a un retour sur la performance.
Tout club qui souhaite entrer dans le monde du data doit impérativement établir une stratégie. Acheter un GPS pour dire que l’on en a acheté un est aussi inutile qu’acheter un smartphone sans avoir prévu un budget pour le forfait mensuel, les applications et les accessoires.
Bien sûr le revendeur oublie souvent de mentionner ce coût. Mais un GPS sans analyste ne vous servira pas à grand chose. Pensez-vous que le rouge et le vert soient suffisants pour gérer votre équipe ? Pensez-vous que votre ordinateur soit doté d’une intelligence artificielle pour savoir établir la différence entre fatigue et récupération, les deux s’exprimant par un manque de déplacement à l’entraînement, mais différant fondamentalement dans la prise en charge de l’athlète ? Enfin, pensez-vous que votre staff n’avait pas assez de travail et que leur donner de l’analyse de datas en plus ne va pas les éloigner de leur métier initial : entraîner et coacher ? Enregistrer trop de datas augmente le coût de stockage et d’analyses ; ou bien alors, on fait semblant. Car après tout, on n’a pas les moyens de réellement s’impliquer dans le « big data » et on n’a ni les installations pour s’entraîner correctement ni le personnel pour mettre en place une politique de haut niveau. Faire un peu de datas pour rester dans le coup avec les autres équipes, accrocher le wagon à la mode et se contenter de masquer son manque d’investissement est également une stratégie. Mais elle a un coût, au-delà de celui des dépenses, et ce coût s’exprime en terme de résultats. Dans le sport de haut niveau, l’histoire du petit Poucet fait toujours rêver dans la coupe de France de football – cela reste le seul sport où David peut gagner contre Goliath – mais soyons franc, cela ne dure pas dans le temps. On ne peut pas tricher avec le haut niveau, avec le temps l’enfumage disparaît et la chute sera inexorable.

Le temps
Le temps, bien que relié à la notion de coût – ne dit-on pas le « le temps c’est de l’argent » ? – mérite son propre paragraphe. La notion de temps prend ici 2 aspects.
Tout d’abord, par manque de moyens financiers, le temps de votre staff à agréger et analyser les données sera du temps qu’ils ne passeront pas à faire leur travail pour lequel ils sont spécialistes. Le traitement des données prend du temps. Du temps supplémentaire au préparateur physique si celui-ci est en charge de l’analyse des données. Ou bien cela implique une personne de plus dans le staff, et donc un coût supplémentaire, pour éviter de sous-utiliser les datas en se contentant d’être un agrégateur de données.

Ensuite, combien de temps avant d’obtenir des données fiables et utilisables pour mettre en place des actions concrètes ? Pour combien de temps ? Face aux réponses individuelles, affiner l’utilisation de l’outil Data, va prendre des semaines, voir des mois avant d’avoir construit une base de données sur les réponses individuelles à l’entraînement (charge interne). Certains sportifs ont besoin d’une charge d’entraînement plus importante que d’autres pour être performants lors du prochain match. Autre exemple, un indice de VFC bas à l’approche de la compétition, donc mauvais dans l’absolu, peut être une bonne chose pour certains sportifs si cela est dû à une augmentation de l’activité sympathique. Connaître quels marqueurs, selon quels joueurs, permettent d’être plus compétitif requiert du temps, nécessite des périodes pour calibrer les outils. Dans certains sports le calendrier des compétitions est tellement dense que vous n’obtenez que très rarement cette période de calibrage. Dans certains sports, les joueurs restent si peu de temps dans l’effectif que les indices individuels que vous avez mis plusieurs mois à déterminer ne sont utilisables que quelques mois avant que le joueur parte sous d’autres cieux et doivent être remplacé par un nouveau joueur. Le basket est le parfait exemple avec les contrats mi-saison, mais on pourrait citer le football avec des joueurs qui arrivent également à la trêve hivernale et se retrouvent en prêt à l’été dans un autre club.

La collaboration
L’acquisition correspond-elle à une volonté du staff ou à l’irrésistible envie de faire comme les concurrents ? Pensez-vous que tous les entraîneurs ont, comme vous, scientifiques du sport ou préparateurs physiques à tendance technophile, un attrait pour les données ? Soyez sûrs et certains que non. Amasser et traiter ces données est le dernier souci de nombreux entraîneurs et certains ne changeront absolument rien à leurs entraînements même si vous leur proposez des indicateurs adaptés.
N’oublions pas le coté pratique pour les joueurs. De simples questionnaires, peu coûteux certes, ne rencontrent qu’un accueil mitigé, pour au final obtenir des données subjectives. Tout d’abord, pensez bien que certains joueurs(euses) sont parfaitement capables de faire rapidement la corrélation entre fatigue affichée au monitoring = repos. Ensuite, pensez également que pour d’autres joueurs(euses) le monitoring et les datas c’est avant tout un moyen pour le staff de fliquer leur implication pendant les séances et/ou ne pas le laisser jouer le prochain match pour cause de fatigue. C’est un défi auquel on ne pense pas immédiatement : faire accepter ces outils aux sportifs. Dans un monde parfait, les joueurs font confiance au staff et travaillent dans le même objectif : gagner. La réalité du sport collectif professionnel est quelque peu différente. Et bien souvent les plus motivés se retrouvent dans le staff. Un directeur de la performance confiait il y a un an, sa difficulté de faire porter un cardio-fréquence et un GPS à la star de son équipe. Le joueur n’aime pas être traqué dans ces entraînements et la ceinture le gêne dans ses mouvements. Un an après il a toujours les mêmes problèmes.
Autre exemple avec un simple questionnaire de fatigue matinale. La joueuse se réveille à 8h, complète le questionnaire sous les draps depuis son lit, se rendort, se lève 45min avant l’entraînement prévu à 12h et s’y présente sans prendre de petit déjeuner. Les données du questionnaire ne servent strictement à rien et leur analyse sera faussée et donc erronée. Pensez-vous que l’approche de la joueuse sera différente si vous mettez à disposition de la joueuse des outils hi-tech pour recueillir des données différentes sur le sommeil, l’activité cardiaque ou cérébrale au réveil ?

L’analyse erronée
La mauvaise interprétation des pattern en établissant une causalité qui n’existe pas – simplement une coïncidence- est un biais dominant dans les analyses.
Etablir que suite à 3 entraînements les joueurs sont fatigués et les mettre au repos quand en fait ils sont entrain de récupérer (et dès lors les garder en activité adaptée serait la solution) a des incidences directes sur l’état de forme de ces joueurs. Combien de fois ne lit-on pas dans les journaux des phrases de joueurs qui se sentaient un « peu court physiquement » alors qu’ils ont eu une semaine de « repos pour préparer le match » ? Se reposer à 100% sur les datas, c’est occulter l’humain dans l’équation de la performance. L’aspect psychologique n’est pas encore mesuré, ou pas systématisé via les questionnaires et le suivi attentionnel (EEG), pourtant on sait que celui-ci joue un rôle majeur dans la performance. Le bien-être et les sensations sont les premières excuses derrière lesquelles les sportifs se réfugient après une défaite. De ce fait, les datas doivent être un accompagnement et non un tout. L’analyse est le maillon faible du « big data ».

Sans rentrer dans les détails mais seulement en proposant une histoire empruntée à N. Taleb dans son livre Cygne Noir. L’histoire rapidement résumée commence ainsi : pendant 1000 jours un fermier nourrit sa dinde, prend soin d’elle et s’assure de son bien-être. Chaque jour qui passe renforce la dinde qu’elle vie dans le meilleur des mondes. Son niveau de confiance dans le fermier, basé sur sa relation au jour précédent, de la semaine passée, du mois, trimestre, (…) ne fait que monter. Tout cela jusqu’à ce Mercredi avant le Thanksgiving où le fermier lui coupa la tête pour le servir rôtie avec une bonne sauce. En se penchant sur l’analyse des datas du niveau de confiance de la dinde, la transcription en pattern pour s’assurer que demain sera un nouveau jour sans problème ne nous renseigne en rien. Ces données ne permettent pas de prédire la performance du lendemain. L’utilisation de pattern basé sur des datas du passé limitent drastiquement leur capacité de prédiction. Sans prise en compte de l’aspect situationnel et des réponses individuelles, les prédictions sur l’état de forme ou le risque de blessures sont accompagnés d’une marge d’erreur que l’on ne connaît pas. Cela revient à comparer des oranges et des pommes. Les joueurs sont différents, et réagissent différemment aux entrainements ; et surtout ont des emplois du temps différents – les autres 15-20 heures de la journée où vous n’êtes pas avec eux – et ils possèdent des réactions aux stress différents. En gros, ils ne sont ni des robots ni des courbes sur votre écran de smartphone et dès lors, les analyses doivent prendre en compte ces aspects inter-individuels. L’utilisation de l’outil statistique pour réguler la charge d’entrainement est donc à prendre avec des pincettes. L’analyse est multifactorielle et à moins que votre logiciel n’intègre l’ensemble des paramètres, il est important d’établir un algorithme décision du poids des informations et d’utiliser des boucles rétroactives pour vérifier que ces datas soient valides, utiles et transposables.
En discutant avec un préparateur physique de football italien reconnu sur la scène internationale, il a même ajouté que, plus le niveau de précision de nos outils de mesure (en l’occurrence dans les GPS /accéléromètres dans notre conversation), plus il devenait difficile d’analyser précisément. La fréquence d’acquisition de l’instrument augmente le nombre de datas (c’est le but) mais le risque d’erreur d’interprétation augmente également. On pourrait imaginer que cette augmentation soit linéaire (5 fois plus de datas entraîne 5 fois plus d’erreur) ; non, l’augmentation du risque d’interprétation est exponentielle selon lui et d’autant plus importante quand la fatigue se présente. Par exemple, une feinte de changement de direction avec une stratégie d’épaule (qui intervient plus souvent quand les jambes sont fatiguées) pourra être analysée comme un changement de direction de par la position même du capteur lors d’une acquisition à 50Hz par rapport à 10Hz.

Les données fumeuses
C’est le dernier point mais certainement celui qui traduit clairement le manque d’une stratégie quand à l’intégration des datas dans le management. Pompeusement nommées fumeuses car avec la fumée on cache ce qui est essentiel et on perd du temps. Avec le versant physiologique totalement dominant –à tort- le psychologique et le biomécanique, la systématisation du suivi de la quantité d’entraînement a renforcé l’idée que la fatigue est le premier facteur de risque chez un athlète. Certes on sait qu’après un certain nombre d’heures de pratique, le risque de blessures augmente drastiquement, et que les blessures musculaires surviennent principalement à la fin des mi temps. Non seulement le suivi physiologique ne nous permet pas d’être précis quand une blessure va survenir, mais le pourcentage de risque par heure de pratique intègre un écart type important. Mettre un athlète au repos alors que celui-ci n’est pas fatigué augmente aussi son risque de blessure – d’où peut-être les nombreux échecs malgré un monitoring plus précis ; mais en plus le monitoring physiologique ne peut nous indiquer où la blessure va apparaître. Bien sur, ces données fumeuses ajoutent un coût, du temps humain, et augmente le risque de trouver des corrélations et des causalités qui n’ont pas d’intérêts.

Le Hasard sauvage
Plus encore que tout, la qualité des datas est essentielle. Enregistrer des artefacts et tenter une analyse de ces erreurs ne pourra que biaiser toutes les prescriptions qui vont suivre. C’est comme attribuer ce que j’appelle des valeurs « boule de cristal » à des outils qui ne le sont pas. C’est-à-dire tenter de faire dire bien plus aux datas que ce qu’elles produisent. L’extrapolation des résultats est hélas monnaie courante dans le sport de haut niveau ou les auto-proclamés super spécialistes vendent leur service pour analyser ce qu’ils ont vu (dans leur boule de
cristal). La variabilité cardiaque et l’électromyographie sont 2 outils où l’on retrouve des analyses très poussées d’un spécialiste à un autre. Les données d’accéléromètre (mouvement global ou simplement pour établir des profils inertiels) se placent également dans cette course.
Pour emprunter une idée à N. Taleb une nouvelle fois, nous sommes gouvernés par le biais de narration. Nous voulons toujours expliquer à posteriori, en connaissant la fin de l’histoire, ici la blessure. Sauf que « nous ne savons pas ce que nous ne savons pas ». Sommes-nous certains de suivre les bonnes données ? Tentons-nous d’expliquer des évènements sur la base de données incomplètes et extrapolées sans savoir ce que nous ne voyons pas ? L’explication ne vient-elle pas de données que nous n’explorons pas ?

Face aux Datas : faut-il devenir un Sceptique Empirirque ?
L’intégration de data est inhérente à la pratique sportive de haut niveau moderne. Ces
« quants », comme on les appelle dans le système bancaire sont-ils, pour autant l’apothéose et l’unique direction à prendre ? Il ne faut pas oublier que le sport professionnel reste l’un des rare métiers de l’humain à l’humain. Les ordinateurs et les calculs stratégiques prennent de plus en plus de place. Mais en fin de compte, cela reste un homme qui va marquer le but ou plaquer l’adversaire ne l’oublions pas. Aussi, avant d’investir dans des technologies qui seront rapidement dépassée (les accéléromètres ont multiplié par 100 leur vitesse d’acquisition en 3 ans de 10Hz à plus de 1200 aujourd’hui), les clubs doivent engager du personnel et continuer à les former (management, psychologie, technique de terrain, informatique).
Bien entendu, les teams qui souhaitent s’engager sur la route des datas doivent absolument éviter les problèmes que l’on vient d’exposer. Cela commence par un audit, afin d’établir la stratégie, les besoins, et surtout le budget. La partie financière est bien souvent l’élément clé comme dans tout business. Un club doit investir pour aujourd’hui et pour le futur. Simplement dit, acheter des équipements d’évaluations sans avoir les moyens de mettre en place les remédiations par manque de personnel ou d’infrastructures est une perte d’argent et de temps. Tout les clubs n’ont pas un budget de Champion’s League ; reste que la première dépense dans la mise en place d’une stratégie de data doit s’opérer sur l’humain ! En étant précis sur la stratégie, on peut espérer maximiser ses dépenses pour en produire des investissements. L’objectif ne devrait pas être non plus d’engager des Docteurs en science du sport fraîchement diplômé pour diriger votre département performance mais bien de donner les moyens aux préparateurs expérimentés pour savoir discerner le bruit de la musique.
En fin de compte, l’élément le plus important reste la transcription des datas en outils pratique, directement utilisable sur le terrain pour manager la performance des joueurs et leur risque de blessure. Et cela cher lecteur, cela restera encore et pour beaucoup d’années, l’art du coach/préparateur physique ou encore plus communément appelé le talent. Et un conseil, misez toujours sur le talent de votre staff avant de miser sur des outils technologiques. Car ce talent est venu au pris d’année de travail. Et cela n’a pas de prix !

Article co-rédigé par :

Arnaud Ferec, préparateur physique, fondateur de PRO-FTS, et auteur de GENETICS FOR TRAINERS: Decoding The Sports Genes.

Xavier Barbier, préparateur physique.

Chaque publication, dans votre boîte de réception. Pas de spam, jamais. Promis.