Une masse de données indigeste Pour chaque animal (16 au total) on réalise un enregistrement formé d'une suite de points qui ont chacun deux valeurs :

  • la distance entre les deux électrodes (c'est à dire la valeur de l'écartement des valves à la hauteur des électrodes, exprimé en millimètres)
  • un temps (exprimé en heure, h, min, sec) qui est l'heure à laquelle la mesure est faite (synchronisé chaque jour à minuit sur une horloge atomique).
  • à ces 2 valeurs s'ajoute le n° de l'animal sur lequel est fait la mesure

Actuellement, une mesure est réalisée toutes les 0,1 seconde, 24/7, et les animaux sont échantillonnés l'un après l'autre. Donc, avec 16 huîtres, un animal est interrogé toutes les 1,6 secondes. Pour décrire le comportement du groupe on dispose chaque jour d'un tableau de 864 000 lignes où on trouve 3 informations de base: le n° de l'animal (de 1 à 16), l'heure-min-sec de la mesure, la valeur de l'écartement des valves. L'ensemble représente un total de près de 2,6 millions d'informations / jour.


Au final, une grande masse de données chaque jour pour décrire le comportement de chaque animal et du groupe! Et chaque jour, les données s'accumulent…

Si on multiplie par 365 jours, on voit qu'on a 315 360 000 mesures qui décrivent le comportement du groupe de 16 animaux étudiés (864 000 x 365). Et nous avons plusieurs sites... et un de nos buts est d'enregistrer sur plusieurs années pour voir les tendances à long terme de l'évolution des masses d'eau. Aucun outil statistique du commerce ne peut traiter correctement un tel ensemble d'informations qui contient bien sur en plus, des valeurs aberrantes et des valeurs manquantes. D'où l'importance d'un travail fondamental actuellement en mathématiques appliquées. Télécharger 2 brèves de vulgarisation rédigées avec les mathématiciens et publiées sur le site Mathématiques de la planète Terre 2013 [Les huitres ont des oreilles], [Les huitres rêvent-elles de moutons électriques?].

On peut bien sur représenter graphiquement les données (voir la rubrique Enregistrements de la page web) et observer quelques phénomènes et tendances. On observe par exemple qu'il est exceptionnel que des huîtres restent ouvertes toute la journée. Mais l'esprit humain est bien sur, en quelques jours, totalement incapable de décrire, d'intégrer et de «digérer» un tel ensemble d'informations, de figures individuelles, et naturellement d'en tirer profit.

Telles quelles, ces séries de données sont donc peu exploitables. D'autant plus que différents facteurs du milieu (plus ou moins intuitifs) vont influencer le comportement des animaux et que d'autres facteurs vont par conséquent devoir aussi être intégrés.

Pour aller au delà de ces difficultés, et en particulier pouvoir mesurer les vitesses de fermeture et ouverture, nous avons décidé de modéliser et traiter statistiquement les données obtenues en continu. L'idée était de transformer chaque série journalière, par animal, en une seule équation mathématique, puis d'exploiter ces équations pour en tirer un maximum de valeurs « pré-digérées », faire des moyennes et des statistiques sur la journée, la semaine, le mois ou l'année. D'où bien sur tout l'intérêt d'une approche pluridisciplinaire alliant biologiste, électronicien et mathématicien.

En final, la détermination de modèles mathématiques et statistiques va nous permettre de décrire et comprendre le fonctionnement de ces animaux in situ . Le nombre de fois par exemple, ou un animal fait des petits mouvements de fermeture (impossible à compter manuellement sur de grandes séries), peut être considéré comme caractéristique d'un état de fébrilité. Ceci pourrait être assimilable à ce que nous faisons lorsque nous nous passons la langue sur les lèvres de façon répétitive ou qu'un chien hume l'air en cherchant d'où vient une odeur (au biologiste ensuite de découvrir pourquoi des huîtres peuvent devenir «fébriles»!).


Principe de l'analyse mathématique :

L'ensemble du traitement est réalisé sous Linux (version Fedora 4) sur une station de travail DELL biprocesseur, 16 coeurs. Pour modéliser l'ensemble de ces mouvements, nous avons utilisé un modèle de régression non paramétrique basé sur un estimateur de type noyau (Silverman (1986), Härdle (1992), Durrieu (1997ab, 1999), Tran et al ., (2003) et Durrieu et Briollais (2006)). La relation cherchée est représentée par le modèle de régression:

où n, Y i , t i et m(.) représentent respectivement le nombre total de couples de valeurs, la distance entre les électrodes, le moment exacte de la mesure (jour, heure, minute, seconde) et la fonction de régression inconnue à estimer. La source de variation e i est une variable aléatoire de moyenne nulle et de distribution f inconnue (cadre non paramétrique) qui permet de caractériser la variation de la variable aléatoire Y autour de

Cette fonction moyenne (définition de l'espérance conditionnelle de Y sachant T) est fonction de la densité conjointe de probabilité du couple (Y,T), notée f(y,t) (inconnue) et de la densité de probabilité de la loi marginale de T notée f(t) (inconnue aussi). Le problème est donc d'estimer la fonction m(.) conditionnée par les mesures effectuées au cours du temps. Après estimation des densités de probabilité on en déduit l'estimateur de m() qui décrit le comportement d'un animal

où K h () désigne une fonction qui a la propriété d'être symétrique par rapport à 0 et d'intégrale égale à 1 (h désigne le paramètre de lissage que l'on estime de manière automatique par la méthode de la validation croisée). Les propriétés statistiques de ces estimateurs (consistance, comportement asymptotique, biais, etc) ont bien sur été étudiés mais ne sont pas données ici.

Pour finir, voici une liste non exhaustive des grandeurs que nous pouvons suivre et/ou calculer actuellement. Cet ensemble permet ainsi aborder divers aspects du comportement décrivant au niveau du jour, de la semaine ou du mois, des traits de vie caractéristiques d'un mollusque bivalve et cela, dans un endroit donné, à une condition et un moment donné.

  • Graphique dynamique d'activité brute (grande taille) pour animal/animal sur 1 à 30j
  • Graphique dynamique d'activité brute (taille moyenne) pour 4 animaux
  • Graphique dynamique d'activité brute (taille moyenne) pour 16 animaux
  • Graphique rythmes biologiques par 24h pour mise en évidence du rythme circatidal (de 1 j à 1 an)
  • Graphique rythmes biologiques par 48h pour mise en évidence du rythme circadien(de 1 j à 1 an)
  • Résumé d'activité d'un groupe par jour avec mise en perspective / marée et / nycthémère
  • Nombres d'ouvertures et de fermetures journalières
  • Durées d'ouverture et de fermeture journalières avec seuillage d'amplitude
  • Nombre de micro-fermetures avec seuillage d'amplitude ou fermetures totales
  • Vitesses d'ouverture et de fermeture (vitesse maximum et vitesse moyenne)
  • Description de la fréquence de distribution des vitesses maximums de fermeture et de réouverture par condition environnementale (pour une amplitude donnée)
  • Amplitude d'ouverture minimum et maximum
  • Etats d'écartement les plus fréquents
  • Moment de la journée où la probabilité d'ouverture est la plus importante
  • Moment de la journée où la probabilité de fermeture est la plus importante
  • Distribution des périodes d'ouverture au cours du temps
  • Distribution des périodes de fermeture au cours du temps
  • Evolution de la croissance au cours du temps
  • Relation avec les paramètres du milieu (marée, rythme jour/nuit, etc)
  • Evolution de la température
  • Evolution de la marée
  • Evolution du nycthémère
  • Evolution de la phase de lune
  • Détermination d'états de référence en fonction de la journée, de la saison, etc
  • Suivi de l'activité en période de crise
  • Caractérisation des pontes (date, horaire, durée)
  • Datation de la mort (jour, heure, minute)

La mise en place de ces modèles a en fait nécessité la mise en place d'algorithmes optimisés afin d'éviter des temps calculs trop importants générés par le gros volume de données à traiter (chaque fichier représente 18 M octets pour une seule journée).

Si on raisonne en terme de protection de l'environnement, lors d'une crise suite à une pollution aigu ou chronique, des variations de différents paramètres du comportement vont apparaître. Ce type d'analyse aide donc à mieux comprendre et interpréter l'impact des produits incriminés sur la faune marine et l'écosystème touché.

 

MATERIEL: Sur le terrain on privilégie haute précision, économie d'énergie et robustesse (on est toujours en milieux extrèmes, immergé en mer, du milieu tropical aux mers polaires, exposé aux tempêtes et au froid, avec peu de possibilités de reboot). La stratégie a été de développer notre propre électronique avec la Société EUKREA Electromatique à Pessac. Nous avons conçu avec eux des mini-ordinateurs esclaves, dédiés, consommant 1 W et fonctionnant sous Linux embarqué. Au laboratoire, où l'énergie n'est pas limitante, on privilégie la puissance de calcul avec des codes dédiés qui font l'objet de développements permanents en fonction de l'imagination des biologistes. Tous les calculs sont réalisés sur un serveur DELL PowerEdge T620, biprocesseurs, 8 coeurs. Ce serveur (le Maitre) gère l'ensemble des sites de terrain (les Esclaves). Les données du serveur sont sauvegardées quotidiennement sur 2 autres machines, localisées sur 2 sites géographiques différents (niveau de redondance du stockage = 3).

Pour en savoir plus :

  • Coudret R. (2013) Modélisation stochastique de grands jeux de données : applications en écologie et en génétique. Thèse de l'Université Bordeaux 1. 143p
  • Durrieu G., Nguyen T.M.N. and Sow M. (2009). Comparaison d'estimateurs de regression non parametriques : application en valvometrie.  Proc. de la societe FranŹaise de Statistique, pdf.
  • Durrieu G. (1997a). Procédures séquentielles non paramétriques de l'estimation du coefficient de régression dans un modèle linéaire, Proc. des XXIX Journées de Statistique , p. 347-350.
  • Durrieu G. (1997b). Contribution statistique à l'étude des maladies d'origine mitochondriales. Thèse de l'Université de Bordeaux en mathématiques appliquées
  • Durrieu G., Meunier F., O'Connel J., Martinez M. and Demenais F. (1999). Detection of quantitative trait loci associated with alcohol-dependence: Use of model-free sib-pair method and combined segregation-linkage analysis based on regressive models. Genetic Epidemiology 17, 145-150.
  • Durrieu G. and Briollais L. (2009) Sequential determination of sample size for robust linear regression: application to microarray experimental designs,  Journal of the American Statistical Association, 104(486), 650-660.
  • Haërdle W. (1992). Applied nonparametric regression. Cambridge University Press , 349 pages.
  • Silverman B. W. (1986). Density Estimation for Statistics and Data Analysis, 1st edition, Chapman and Hall, London , 175 pages.
  • Sow M (2011) Développement de modèles non paramétriques et robuste: application à l'analyse du comportement de bivalves et à l'analyse de liaisons génétiques. Thèse de l'Université Bordeaux 1. 206 p
  • Tran D., Ciret P., Ciutat A., Durrieu G. and Massabuau J.C. (2003). Potential and limits of bivalve closure response to detect contaminants : a new approach applied to cadmium, Environmental toxicology and chemistry 22(4), 914-920.

 


informations

 
ENREGISTREMENTS BRUTS DYNAMIQUES
sur 1-6 j. Dans le menu Enregistrements, choisissez un site, puis J1 sur le calendrier
 
ZOOM: en survolant le graphe, clic gauche de la souris enfoncé, on zoom sur la période choisie.
Les résolutions max sont 100 msec et ~ 1 µm

´╗┐Connexion


´╗┐ Login

´╗┐ Mot de passe


´╗┐ Mot de passe Oublié ?