Statistiques

tout sur les statistiques
 
AccueilAccueil  FAQFAQ  RechercherRechercher  S'enregistrerS'enregistrer  MembresMembres  GroupesGroupes  Connexion  

Partagez | 
 

 Classification, regroupement et typologie en palynologie

Voir le sujet précédent Voir le sujet suivant Aller en bas 
AuteurMessage
Dizzy84



Nombre de messages : 5
Date d'inscription : 10/06/2012

MessageSujet: Classification, regroupement et typologie en palynologie   Dim 10 Juin - 22:41

Bonjour,

Pour une fois, si je me tourne vers un forum, ce n'est pas parce que je ne trouve rien sur le net, mais plutôt parce que j'en trouve trop! Et je suis perdu.

Le contexte:
Je travaille (de façon bénévole pour une association) sur des données palynologique. La palynologie c'est l'étude des grains de pollen retrouvés dans le sol à différentes profondeurs qui permet de déduire les différents climats qui ont existé autrefois à cet endroit - il y a 2000, 3000, 5000, 10000 ans ...

Je n'ai pas constitués moi-même ces données. Je récupère des données produites dans les années 70 par des étudiants en thèse.

Le but:
Ce jeu de donnée est le seul qui existe sur la zone étudiée. Or, réaliser de nouvelles analyses coûte évidemment cher et est compliqué à mettre en œuvre d'un point de vue administratif. Le but donc est de vérifier si oui ou non ce jeu de donnée présente une certaine fiabilité ou s'il est bon à jeter à la poubelle.

La constitution du jeu de données palynologique:
Le principe est le suivant:
1. Le chercheur (ou l'étudiant) va sur le terrain ciblé, et prélève différentes carottes de terres en différents points stratégiques (ces points sont choisis en général en fonction de la qualité des sols, de la pente, bref, de multiples paramètres qui, combinés, offrent les meilleures conditions de préservations des grains de pollen dans le sol)
2. Il rapporte les carottes de terre au laboratoire d'analyse. Sur place, il prélève au sein de chaque carotte, plusieurs échantillons. Ces échantillons sont régulièrement espacés sur la carotte (tous les 5 centimètres par exemple).
3. Au sein de chaque échantillons, il compte, au microscope, les grains de pollen présent et les identifies (par exemple: 30 pollen de chêne, 150 de bouleau, etc.)
4. Il calcule alors la part de grains de pollen de chaque type (ou taxon) identifiés pour un échantillon (ou spectre). Exemple: pour la carotte n°1, dans l'échantillon numéro 5 (prélevé à 25 cm du sommet de la carotte), il y a 25% de grains de pollen de chêne, 40% de grains de pollen de bouleaux et 35% de grains de pollens de graminées divers.
5. Il rapporte ces pourcentage sur une page de graphiques: il y a un graphique en courbe pour chaque type de grains de pollen identifiés et les graphiques sont disposés les uns en-dessous des autres (abscisse: les profondeurs; ordonnées les pourcentages).
6. A partir de ces graphiques, il interprète visuellement, un découpage permettant de définir des périodes climatiques (chronozone). Exemple: il constate que du haut de la carotte et jusqu'à 25 cm de profondeur, on a plus ou moins les même type de pollens dominants qui sont les témoins d'un climat plutôt chaud. Ensuite, à partir de 25 cm de profondeur et jusqu'à 40 cm, on a des grains de pollens de taxons plutôt révélateur d'une climat froid, etc.

Cette méthode est relativement fiable lorsqu'elle est effectuées par un spécialiste expérimenté. Mais elle est source d'erreur lorsqu'elle est réalisée par un débutant.
Les étudiants qui ont réalisés mon jeu de données en étaient à leur coup d'essai et par conséquent, ils ont pu faire quelques erreurs dans la reconnaissance des grains de pollen ainsi que dans le découpage finale en chronozone.

L'état du jeu de données actuel:
Je n'ai jamais eu accès aux données bruts qui ont été perdues avec le temps, mais uniquement au graphiques. La nature de mes données est des données des pourcentages.

J'ai réuni ces données sous forme d'un tableau Excel avec:
  • En identifiant (première colonne): Les spectres floristiques qui correspondent aux échantillons de chaque carotte que j'ai nommé de la façon suivante: [nom/code de la carotte]SP[numéro de l'échantillon dans la carotte]

  • En variables continues: les différents taxons identifiés. Exemple: Pin, Bouleaux, Chêne, Tilleul, céréales, graminées, etc. (en latin dans l'image). Ces variables comportent des valeurs de taux. La somme des taux d'une ligne (c'est-à-dire d'un échantillon dans une carotte) devrait donner 100% (ce qui n'est pas vraiment le cas dû aux approximations manuelles mais s'en approche globalement)

  • En variable discrète: le nom des chronozones (périodes climatiques) données par les étudiants dans les années 70.




Hypothèse et démarche:
L'hypothèse de base est que le travail de regroupement d'échantillons continus en groupes homogènes et caractéristiques réalisé par les étudiants de l'époque a globalement été correctement réalisé.

La démarche globale est d'identifier les spectres floristiques (échantillons) qui ont une composition de grains de pollens (les variables) proche. Au sein d'une même carotte dans un premier temps, puis entre les différentes carottes.

Les questions:
- sachant que mon jeu de donnée n'est pas propre du tout (il y a des trous, les totaux ne sont presque jamais égaux à 100%)
- sachant que beaucoup de données offrent un caractère exceptionnel (un type de grain de pollen trouvé une seule fois dans un échantillons)
- sachant que les étudiants ont pu se tromper notamment sur l'identification des grains de pollen les plus rares
- sachant que je n'ai pu composer ce jeu de données qu'à partir de la lecture graphique des représentations qui en ont été faites et donc que les approximations sont légions

Alors,
*Dois-je au préalable "nettoyer" mes données (au risque de rendre plus grandes encore les approximations?) et de quelle façon? (Centrer, normaliser?)
*Dois-je faire une analyse type ACP ou AFC avant de faire une classification?
*Dois-je faire une Classification Ascendante Hiérarchique?

Question subsidiaire:
Comment (ou faut-il) tenir compte de la disposition en couche superposée continue des échantillons? En effet, les sédiments (et avec eux, les grains de pollen) ce sont déposés les uns sur les autres. Par conséquent, plus que de trouver si l'échantillon 3 est proche de l'échantillon 8, il s'agit de voir dans quelle mesure l'échantillon 1 d'une carotte est proche de l'échantillon 2 de la même carotte, lui-même proche de l'échantillon 3 etc. et d'identifier à quel moment une rupture est suffisamment nette entre deux échantillons continus pour considérer qu'on change de groupe. Ce qui n'empêche pas qu'on puisse trouver des échantillons se ressemblant tout en étant très éloigné car l'histoire climatique est faite de cycle et on a pu connaitre deux périodes chaudes avant et après une période froide.

Je travaille plutôt sur TANAGRA et Excel.
Je demande plutôt des pistes de travail et des confirmations et infirmations, mais si jamais quelqu'un voulait m'aider plus en détail c'est avec plaisir que je recevrais son aide.

Merci infiniment déjà à celui qui aura pris la peine de lire tout ça.

Cordialement
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
granchef



Nombre de messages : 45
Date d'inscription : 01/04/2008

MessageSujet: Re: Classification, regroupement et typologie en palynologie   Lun 11 Juin - 18:19

Bonjour,

-Vous travaillez sur les pourcentages de présence de grains de pollen, mais leur quantité n'est-elle pas un critère forts (plus il y avait de végétaux, plus on trouve de grains de pollen)?
- Les sommes ne font-elles pas toutes 100 en raison de présence de grain de pollen minoritaires non pris en compte dans l'étude?

Si oui, une variable "Autre" pourrait être insérée.
Sinon, on pourrait rapporter les effectifs à 100 quand ils n'en sont pas éloignés (impact d'approximation très limité).

- La variable CHRONOZONES est en fait la réponse à votre question, non? (sinon, c'est une variable indicatrice cf. AFC)

-"Entre les différentes carottes" : là on parle bien d'AFC : tel échantillon est regroupé avec tel échantillon associés à telles espèces; le tout opposé à un autre groupe.
-Par contre, ne faudrait-il pas mieux comparer les carottes avec la profondeur de prise de l'échantillon?
On a 2 carottes, la première :
échant 1 : 5cm échant 2 : 10 cm etc... et la seconde
echant1 : 6cm, echante2 , 11 cm etc...

Une même ère, correspond à une même profondeur donc l'AFC menée doit déterminer, pour une profondeur donnée, quels échantillons se ressemblent et se différencient?
Je m'aperçois, que ceci, est, peut-être, un élément de réponse à votre dernière interrogation :-)
Mais êtes-vous en mesure de déterminer la profondeur pour chaque échantillon?

-Pour ce qui est de l'analyse au sein de la carotte, vu votre tableau, il y a entre 5 et 10 prélèvements par carottes, donc c'est une observation manuelle qu'il faut tenter.
Sous excel, on peut fair eun graphique en toile d'arraignée. Faites autant de courbe que de prélèvements et chaque axe de la toile correspond à une variété de pollens. Peut-être en mettant les séries triées par profondeurs, les effets de "seuils" apparaitront-ils..

Sujet difficile, j'espère ne pas vous avoir embrouiller ;-)







Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Dizzy84



Nombre de messages : 5
Date d'inscription : 10/06/2012

MessageSujet: Re: Classification, regroupement et typologie en palynologie   Lun 11 Juin - 23:25

Bonjour et merci d 'avoir pris le temps de me lire et de me répondre!

alors,

granchef a écrit:

-Vous travaillez sur les pourcentages de présence de grains de pollen, mais leur quantité n'est-elle pas un critère forts (plus il y avait de végétaux, plus on trouve de grains de pollen)?
- Les sommes ne font-elles pas toutes 100 en raison de présence de grain de pollen minoritaires non pris en compte dans l'étude?

- Sur la question de la quantité, la réponse est délicate. Globalement, on dirait plutôt que oui, plus le nombre de grains de pollen est important, plus il y avait de végétaux. Mais, c'est pas complètement vrai. Premièrement parce que lors du comptage en laboratoire, rien ne garantit que la méthode de recueil des échantillons soit réellement représentative de la distribution de pollen sur place. En effet, le chercheur va identifier plusieurs centaines, voire milliers de grains, mais sur un total probable de plusieurs centaine de millions ou milliard... On est loin d'avoir un échantillon réellement représentatif.
Deuxièmement, la variable "dispersion" des grains n'est pas prise en compte. Je m'explique rapidement. Chaque espèce végétale disperse ses grains de pollen d'une manière différente. Certaines espèces avec des branches basses ont des grains plus "lourds" qui, lors de la dispersion par la plante se retrouverons principalement concentrés autour du végétale qui les a disséminés. D'autres espèces, plus hautes, ont des grains plus "légers", qui seront transportés sur des kilomètres par le vent et dont le dépôt au sol prendra une forme très clairsemée. Il y a déjà là un risque de "mauvaise" représentation du paysage par l'analyse pollinique.
D'autres paramètres, comme le regroupement ou l'isolement d'une espèce végétale modifie aussi la dispersion des grains. Par exemple, si on a un chêne isolé dans une plaine et à quelques dizaines de mètres, une forêt de pins, une analyse pollinique réalisée à l'endroit du chêne donnera le résultat suivant: beaucoup de pollen de chêne et seulement quelque pollen de pins. On risquerait d'en déduire qu'il y avait dans la zone une forêt de chêne et quelques pins, alors que c'est le contraire.

Mais c'est afin d'atténuer cet effet de localisation qu'on effectue plusieurs prélèvement,... mais c'est aussi pour cela qu'il n'est pas absurde de travailler uniquement sur des données du type présence / absence (1 et 0).

Je m'étais toujours dis qu'une fois la méthode statistiques correctement définies, il faudrait l'appliquer aux deux types de données, les données chiffrées (pourcentage) et les données binaires, et comparer les résultats.

- Pour la deuxième remarque, les sommes ne font pas 100% (parfois plus, parfois moins) pour pleins de raisons. Celle que vous avez mentionnées, mais aussi parce que je n'ai pu reconstituer ce jeu de données qu'à partir d'une lecture graphique des diagrammes retrouvés. C'est-à-dire que sur chaque diagramme, j'ai mesuré à la main (et à la règle), au demi-millimètre près, les valeurs prise par chaque type de pollen à chaque échantillon... Sachant, de plus, que dans les années 70, ces diagrammes avaient été dessinés à la main. Donc avec une précision minutieuse, certes, mais qui n'est pas celle d'un ordinateur quand même...


granchef a écrit:

Si oui, une variable "Autre" pourrait être insérée.
Sinon, on pourrait rapporter les effectifs à 100 quand ils n'en sont pas éloignés (impact d'approximation très limité).

Donc spontanément, même si l'idée est bonne, je ne serais pas pour ajouter une variable "Autre". D'abord parce que j'ai des fois des totaux supérieurs à 100% (dus à l'approximation du dessin et de la lecture), ce qui impliquerait d'intégrer des valeurs négatives pour arriver à 100%, ce qui n'aurait vraiment pas de sens me semble-t-il. Ensuite parce que globalement, j'avais imaginé qu'une piste d'analyse statistique consisterait dans un premier temps à "éliminer" un certains nombre de variables considérées comme trop exceptionnelles ou trop peu représentatives, et non pas en ajouter! (Mais peut-on faire, ça et dans quelle mesure en respectant une forme de déontologie scientifique?)



granchef a écrit:

- La variable CHRONOZONES est en fait la réponse à votre question, non? (sinon, c'est une variable indicatrice cf. AFC)

Oui, exactement, la variable chronozone est la "réponse", les valeurs sont celles qui furent proposées par les étudiants dans les années 70 et qu'il s'agit aujourd'hui de confirmer ou infirmer par une analyse statistique. Je pensais donc l'utiliser comme variable illustrative, juste pour comparer mes résultats, ou ne pas l'utiliser du tout...



granchef a écrit:

-"Entre les différentes carottes" : là on parle bien d'AFC : tel échantillon est regroupé avec tel échantillon associés à telles espèces; le tout opposé à un autre groupe.
-Par contre, ne faudrait-il pas mieux comparer les carottes avec la profondeur de prise de l'échantillon?
On a 2 carottes, la première :
échant 1 : 5cm échant 2 : 10 cm etc... et la seconde
echant1 : 6cm, echante2 , 11 cm etc...


Bonne question... Les profondeurs de sols sont extrêmement variables. Au sein d'une même carotte, le saut entre deux prélèvement était en général identique (tous les 5 cm, par exemple). Mais entre deux carottes, ces saut entre prélèvements peuvent être différents. Parfois ce fut un saut tous les 10 cm, sur une autre carotte ce fut un saut tous les 5, parfois tous les 15 etc... De plus, les terrains où ont été prélevées les carottes ne sont pas identiques, certains ont un degré de pente plus important que d'autres et par conséquent on peut supposer qu'il y a eu moins de sédiments entassés sur ces pentes que dans les creux. Par conséquent, un même période de 1000 ans peut représenter 50 cm à un endroit et seulement 10 cm à un autre.
Donc j'avais plutôt cherché à m'affranchir de cette question des profondeurs d'échantillons en considérant que ce n'était pas là un facteur déterminant des groupes homogènes de spectres polliniques. Et j'ai simplement numéroté chaque prélèvement dans chaque carotte en commençant par le haut de la carotte (qui correspond donc à l'époque la plus récente de dépôts de pollen)

Par contre, vous avez mis le doigts sur le but finale de ce travail, qui consiste, in fine, de dessiner une coupe topographique du terrain en question qui passerait par toutes les carottes (qui sont à peu près alignées) et de représenter les différentes couche superposée de chronozones d'une carotte à une autre... Mais je me disais que cela pouvait se faire une fois les groupes (puis les chronozones) identifiés puisque j'ai gardé en référence les profondeurs auxquelles ont été prélevés les différents échantillons.



granchef a écrit:

Une même ère, correspond à une même profondeur donc l'AFC menée doit déterminer, pour une profondeur donnée, quels échantillons se ressemblent et se différencient?
Je m'aperçois, que ceci, est, peut-être, un élément de réponse à votre dernière interrogation :-)
Mais êtes-vous en mesure de déterminer la profondeur pour chaque échantillon?

Comme expliqué ci-dessus, malheureusement non, une même ère ne correspond pas à une même profondeur.



granchef a écrit:

-Pour ce qui est de l'analyse au sein de la carotte, vu votre tableau, il y a entre 5 et 10 prélèvements par carottes, donc c'est une observation manuelle qu'il faut tenter.
Sous excel, on peut fair eun graphique en toile d'arraignée. Faites autant de courbe que de prélèvements et chaque axe de la toile correspond à une variété de pollens. Peut-être en mettant les séries triées par profondeurs, les effets de "seuils" apparaitront-ils..


Alors je précise que ce tableau est un extrait. Le tableau réel (que je n'ai pas réussit à mettre en pièce jointe...) comporte 178 lignes (dont une ligne de titre) et 73 colonnes (dont une colonne indiquant le total, une colonne pour l'identifiant et une colonne pour les fameuses chronozones). Les carottes comportent entre 9 et 24 échantillons.

J'ai tout de suite essayé le graphique en toile d'araignée. Je ne l'avais encore jamais fait. Je ne crois pas que les seuils apparaissent, par contre ça me semble très intéressant peut-être pour présélectionner les variables principales et secondaires... Du moins, si j'ai bien compris ce graphique...




En tous les cas, vous ne m'avez pas du tout embrouillé, mais encouragé et permis de clarifier mon propos. de plus vous me confirmer qu'il faut passer par une AFC.
Mais une AFC me donnera-t-elle des propositions de groupes?
Ou bien faut-il combiner l'AFC à une CAH?
Si oui, dans ce cas, pourquoi ne pas directement faire une CAH sans passer par l'AFC?
Et qu'en est-il de l'ACP et l'ACM? Pourquoi ne pourraient-elles pas être utiles ici?



Et merci déjà beaucoup de votre soutien

A bientôt j'espère!
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
granchef



Nombre de messages : 45
Date d'inscription : 01/04/2008

MessageSujet: Re: Classification, regroupement et typologie en palynologie   Mar 12 Juin - 10:24

- L'idée de la variable autre n'est donc pas acceptable. En revanche, une alternative "acceptable" pourrait consister à minimiser le biais de la distance séparant chaque échantillon de 100. Exemple :
pour un échantillon, si la somme vaut 98 alors faire un réajustement (produit en croix) sur toutes les sortes de pollen c'est répartir 2 points à travers 18 modalités : c'est donc rajouter 2/18 d'incertitude (d'approximation) sur 100/18. Comparez ces valeurs : 0.1 sur 5.5 ! La portée est faible. En revanche si votre somme vaut 45, on est à 55/18 soit 3.05 sur 5.5 : il y a plus d'approximation que de certitude!
A vous de trouver la distance limite qui sépare votre échantillon de 100, pour laquelle vous pouvez accepter de rajouter une approximation.
Mieux encore, on pourrait envisager sur le même principe de ne pas faire une équi-pondération (rajouter 2/18 à toutes les sortes de pollen) mais de pondérer en fonction de l'importance de la sorte de pollen donnée dans l'échantillon : j'ai 10 points à répartir sur mes 18 espèces. Mais ces 10 points manquant, il y a plus de chances qu'ils soient issus des grands effectifs donc avec la sorte de pollen A qui vaut 40 et la sorte de pollen B qui vaut 10, pour le premier je lui donne 8 de mes 10 points et le second les 2 restant ( on conserve le rapport de 4).
Un doute surgit alors : cette approximation, si elle trouve ESSENTIELLEMENT son origine de votre lecture, ce sera davantage sur le type de graphique utilisé et son échelle. Et le biais est donc indépendant de l'effectif rencontré. Ainsi la première solution : équi-pondération serait préférable.

- Lorsqu'on fait une AFC, on utilise les variables indicatrices pour conforter/infirmer ce genre d'hypothèse.

Citation :
Mais je me disais que cela pouvait se faire une fois les groupes (puis les chronozones) identifiés puisque j'ai gardé en référence les profondeurs auxquelles ont été prélevés les différents échantillons.

-Là ça devient compliqué : c'est une analyse statistique couplée avec un programme algorythmique. Si une carotte est composée de prélèvements de 5cm et une autre de 10 cm. Alors 2 prélèvements de la carotte 1 correspondent en terme d'ère à 1 prélèvement de la carotte 2.
Pour chaque carotte, pour chaque niveau, il faut repérer si on change d'ère : valeurs seuils définies en amont (comme vous l'aviez pensé) . Pour chaque niveau si on se rapproche de la valeur seuil (+ou- quelque chose bien entendu) alors si loin on prend le niveau suivant, si pas loin mais assez près on regarde la distance entre la valeur seuil et la valeur du prochain niveau, etc ... :-)

-En statistique de type marketing, actuariat , souvent, on considère que la contribution minimale acceptable est 1/le nombre de critères. (1/18 pour vous). Mais en microbiologie on regardera l'évolution de ces valeurs faibles (l'effet papillon : l'évolution =changement de la plus petite particule annonce la fin le début de quelque chose d'autre) . Si les données d'un type de pollen sont peu représentées et ne présente pas de structure évolutive particulière, (ça n'engage que moi) enlevez-les. Souvent l'analyse procède à des tâtonnements avant d'arriver à son résultat (d'où la polémique sur l'usage de la stat et du moins qu'on en fait dire ce qu'on veut ).



Citation :
Mais une AFC me donnera-t-elle des propositions de groupes?
Ou bien faut-il combiner l'AFC à une CAH?
Si oui, dans ce cas, pourquoi ne pas directement faire une CAH sans passer par l'AFC?
Et qu'en est-il de l'ACP et l'ACM? Pourquoi ne pourraient-elles pas être utiles ici?

ACP : variables uniquement quanti
AFC: variable quali (généralise ACP donc variable quanti aussi)
ACM : variables quanti +quali : type dépouillement questionnaire

ACM souvent coupléée avec CAH (beaucoup de ressources en parlent) .
L'AFC devrait répondre à votre besoin mais je n'ai pas pratiqué la ligne précédent et je pense qu'elle vous offrirait une alternative interessante.

Cordialement,
Anthony.
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Dizzy84



Nombre de messages : 5
Date d'inscription : 10/06/2012

MessageSujet: Re: Classification, regroupement et typologie en palynologie   Ven 15 Juin - 17:38

Merci pour ces réponses précises!

Je vais m'y atteler ce week-end je pense.

Suite à notre échange, voilà la direction que je vais prendre:


1. "supprimer" (ou ne pas tenir compte) les échantillons ayant un total trop éloigné de 100% (je ferais plusieurs essais je pense, en supprimant d'abord uniquement les échantillons dont le total de pollen est inférieur à 75%)
2. equi-pondérer, les autres échantillons comme vous me le proposez
3. ne pas tenir compte des profondeurs, mais me concentrer sur la recherche des seuils pour l'instant au sein de chaque carotte.
4. ne tenir compte, pour l'instant que des types de pollen qui apparaissent au moins une fois dans toutes les carottes.

Sur ce dernier point (4), la question des type de pollen très peu représenté (qui n’apparaissent que dans 1,2 ou 3 échantillons) reste entière. Comme votre exemple de microbiologie l'illustre, certains type de pollen, s'ils n'apparaissent qu'une fois (ou deux ou trois), peuvent soit être une erreur de reconnaissance, soit être très révélateur d'un climat particulier à une époque précise et donc être très important pour un découpage.

Du coup, je me demande si ça pourrait être pertinent de faire une analyse (type AFC) exclusivement sur ces pollens "rares"?

Quelques questions plus globalement:
- Pensez-vous qu'il soit préférable de rechercher dans un premier temps les échantillons homogènes dans l'ensemble des prélèvements (toutes carottes confondues), dans le but de mieux définir et qualifier ces chronozones?
- Ou bien pensez-vous qu'il soit préférable de rechercher au sein de chaque carotte indépendamment les seuils entre groupes homogènes, quitte à risquer une qualification de groupes qui ne se retrouve pas (ou mal) entre les différentes carottes?

- A propos des différences entre ACP, AFC et ACM, j'ai souvenir d'un prof qui expliquait qu'au-delà de leur différences de nature de données (quali/quanti), une de ces méthodes permettait de mieux mettre en exergue les grandes et grosses tendances dominantes d'un jeu de données, alors qu'une autre permettait au contraire de faire ressortir les individualités exceptionnelles. Je ne me souviens plus de laquelle fait quoi, et du pourquoi? Auriez-vous une piste?

Merci encore infiniment pour votre aide et patience!

Cordialement


Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Dizzy84



Nombre de messages : 5
Date d'inscription : 10/06/2012

MessageSujet: J'y suis presque!   Lun 18 Juin - 15:16

Re bonjour,

afin de ne pas laisser un topic sans fin, voici l'avancée des travaux (sait-on jamais que ça puisse être utile à quelqu'un un jour...)

A partir de données assez mauvaise (cf. posts ci-dessus), j'ai réussi à retrouver des groupes homogènes d'individus statistiques qui semblent pertinents.

Nature des données:

NB: Les données sont des pourcentages de représentation d'individus statistiques sur des variables indépendantes.
Les données sont incomplètes (la somme n'est presque jamais égale à 100%)
Individus: Spectre polliniques
Variables: Taxons polliniques

Traitement réalisé sur les données:

1. ont été purement et simplement supprimés les spectres (individus) dont le total de la ligne était strictement inférieur à 80% (données trop incomplètes), ce qui représentait 20,4% des individus.

2. ont été purement et simplement supprimés les taxons (variables) qui n'enregistraient de valeurs que pour moins de 5% des spectres (individus). Autrement dit: si, pour une variable, au moins 6% des individus ont une valeur non nulle, alors cette variable est conservée.

3. Sur les données restantes, une equi-pondération a été réalisée pour chaque individus sur l'ensemble des variables ayant une valeur non nulle. Par exemple, si le premier individus statistiques présente un total de 85% répartis sur 5 des 15 variables présentes, alors j'ai fait:
[100% (total théorique) - 85% (total réel) = 15% (valeurs manquantes)] ;
[15% (valeurs manquantes) / 5 (variables concernées) = 3]
[+3 points ajoutés aux valeurs des 5 variables concernées]

Pourquoi ne pas avoir réparti l'équi-pondération sur l'ensemble des variables, même celles ayant une valeur nulle?
Car dans mon cas, une valeur nulle signifie "absence", et l'absence d'un taxon peut être révélatrice et donc importante.

Attention
, il a été fait attention que l'équi-pondération ne génère pas des transformations des valeurs de variables supérieures à 1 points (contrairement à mon exemple ci-dessus qui était de 3 points).

Résultats:

J'ai utilisé le logiciel TANAGRA.
J'ai réalisé une AFC (Correspondance Analysis) avec affichage des valeurs du CHI-2.
Les valeurs de contribution du CHI-2 permettent de visualiser pour chaque individu statistiques, la ou le variables les plus contributives à la qualification de l'individu.
Dans mon cas, bonne surprise, j'ai pu constater sur 20 individus pris au hasard, qu'il était possible de les regrouper par groupe de 3 ou 4 environ, ayant une même qualification selon les résultats du CHI-2. Par exemple, pour les individus 2,3 et 4, ce sont les mêmes variables qui contribuent le plus à leur qualification. Pour les individus 5,6,7 et 8, ce sont d'autres variables qui contribuent le plus à les définir.
Or, ma problématique de base étant de valider un découpage qui avait déjà été fait sur ces données il y a 45 ans (sans ordi, sans calculatrice, ...), j'ai pu voir ici que ce découpage par le test du CHI-2 correspondait assez bien (à un ou deux détails près), au découpage réalisé il y a 45 ans... (ils étaient dort quand même).


Dernier obstacle

Je bute maintenant sur une question technique qui consiste à demander au logiciel de réaliser ces groupes automatiquement, (car il y a 141 individus, définis chacun par au moins 5 à 8 variables...)


Merci encore de l'aide apportée, si vous avez une piste pour ce dernier obstacle mentionné, ça serait génial!
Revenir en haut Aller en bas
Voir le profil de l'utilisateur
Contenu sponsorisé




MessageSujet: Re: Classification, regroupement et typologie en palynologie   Aujourd'hui à 21:26

Revenir en haut Aller en bas
 
Classification, regroupement et typologie en palynologie
Voir le sujet précédent Voir le sujet suivant Revenir en haut 
Page 1 sur 1
 Sujets similaires
-
» Réalisation d'une typologie CAH?
» Typologie des problèmes de Vergnaud
» Classification des mammifères
» GEIPAN: Evolution de la classification des cas
» Classification avec R

Permission de ce forum:Vous ne pouvez pas répondre aux sujets dans ce forum
Statistiques :: Statistiques-
Sauter vers: