Taille d'échantillon

Nombre de messages : 5 Date d'inscription : 05/03/2007

Bonjour !

j'aurais une petite question à poser sur les tailles d'échantillons minimum pour estimer des paramètres dans un modèle probit.

voilà le contexte :
on met une dose à une concentration donnée on regarder si on a un succès ou un échec.
On utilise un modèle "probit"

la question est combien d'observations sont nécessaires ?
la seule indication que j'ai trouvée est : "un grand échantillon car l'estimation se fait par EMV" .... qu'est-ce qu'un grand échantillon ?

Je me pose souvent cette question dans le cas de modélisation. Si quelqu'un à des idées ...
merci !

Bonjour Sophie,

En fait, ta question "combien d'observations sont nécessaires ?" est vague :

OK mais combien d'observations nécessaires pour faire quoi ? pour avoir des estimations stables (variance faible), pour avoir un risque d'erreur sur l'affectation (succès/échec) faible ?

Dans le premier cas, difficile à dire je pense. Ca ressemble à un calcul de puissance, il doit exister des choses là-dessus.

Dans le deuxième cas, tu peux utiliser l'inégalité de Vapnik qui donne une borne inférieure sur le rique d'erreur réel (celui qu'on cherche à connaître).

(Sachant que tu utilises un probit, sa VC dimension est de p+1 où p est le nombre de variables, mais je ne pense pas que ce soit ce que tu cherches).

a+

Nombre de messages : 5 Date d'inscription : 05/03/2007

OK mais combien d'observations nécessaires pour faire quoi ? pour avoir des estimations stables (variance faible), pour avoir un risque d'erreur sur l'affectation (succès/échec) faible ?

Dans le premier cas, difficile à dire je pense. Ca ressemble à un calcul de puissance, il doit exister des choses là-dessus.

Dans le deuxième cas, tu peux utiliser l'inégalité de Vapnik qui donne une borne inférieure sur le rique d'erreur réel (celui qu'on cherche à connaître).

Je ne connaissais pas l'extimation de Vapnik ... je vais regarder ça, pour l'analyse de puissance, c'est ce que je pensais, j'ai du mal à trouver pour le probit, mais peut-être que je ne cherche pas bien.
Pour repréciser, on veut savoir à quelle concentration on a 95% de succès, c'est la demande qui m'a été faite. Donc je pense qu'avoir une estimation stable ET et risque faible d'affectation est important.

Merci pour le tuyau,
sophie

Re,

Citation :: Pour repréciser, on veut savoir à quelle concentration on a 95% de succès, c'est la demande qui m'a été faite. Donc je pense qu'avoir une estimation stable ET et risque faible d'affectation est important.

Je suis bien d'accord avec toi ! Si ton modèle probit est "bon", alors, tu obtiens une probabilité pour chaque individu (chaque formule dans ton cas) d'être un succès. Voici une méthodologie classique qui a fait plusieurs fois ses preuves :

1. Diviser l'échantillon en 2 groupes : un groupe contenant 2/3 des individus (groupe d'apprentissage), et un groupe contenant le tiers restant (groupe test)

2. Lancer la régression logistique sur le groupe apprentissage.

3. A partir de 2., calculer les prédictions (échec/succès) pour chaque individu du groupe test.

4. construire la matrice de confusion sur 3 et calculer le taux d'erreur:

prédiction

succès échec
succès VP FN
réalité
échec FP VN

taux d'erreur = (VP+VN)/(VP+VN+FP+FN)

Si le taux d'erreur obtenu est acceptable (ici tout dépend de tes objectifs), alors le modèle est retenu.

Il reste ensuite à chercher la concentration à partir de laquelle le probit vaut 0.95. (c'est simple dans la mesure où ta fonction probit dépend de la concentration).

a+

Nombre de messages : 5 Date d'inscription : 05/03/2007

oui, merci,
mais mon problème est juste de savoir combien je dois faire de mesures au départ pour être (quasiment) sûre d'avoir des résultats fiables (plan d'expérience).

je pense que comme on est dans le cas d'estimation EMV, il faut un "grand échantillon", c'est à dire >30 (en tout). Es-tu d'accord ?

quant à l'analyse de puissance, il me semble qu'elle ne s'applique qu'aux tests => il faut que je regarde quel test est utilisé pour voir l'analyse de puissance ... es-tu d'accord avec ça aussi ?

enfin pour l'inégalité de Vapnik ... ça m'a l'air bien compliqué, mais je vais essayer de me pencher sur la question ...

Sophie

Ok, je pensais que tu disposais déjà des données Embarassed

Le problème, c'est que tu demandes combien d'observations sont nécessaires, mais tu ne connais pas l'effet de la concentration sur succès/échec !! La résolution me semble donc difficile...

Imaginons qu'il n'existe aucune relation entre la concentration et le succès/échec, tu peux disposer d'un échantillon de taille infinie, tu ne trouveras jamais une concentration pour laquelle tu as 95% de chances de conduire à un succès.

Dans la mesure où tu ne possède qu'une seule variable dans ton modèle, tu n'as pas besoin d'un échantillon de taille trop grande. Mais, bon difficile de donner une taille. 30 est un minimum (mais là, ça n'engage que moi).

P.S : Pour l'inégalité de Vapnik, oui c'est hard, mais je pense qu'ici ce n'est pas ce que tu recherches.

Nombre de messages : 5 Date d'inscription : 05/03/2007

ok ... je suis rassurée, c'était bien mon intuition.