Blog
Il existe deux raisons principales pour faire une analyse multivariée dans le cadre d'une recherche biomédicale :
D'une manière générale, lorsque plusieurs paramètres (variables) peuvent influer sur le résultat, une analyse multivariée permet d'ajuster les résultats pour prendre en compte ces paramètres de manière simultanée.
Prenons un exemple simple : vous souhaitez comparer le risque cardiovasculaire chez les hommes et les femmes dans la population générale. On sait que les hommes présentent un risque cardiovasculaire plus élevé. Cependant, il est possible que vous ne trouviez qu'une faible différence entre les deux sexes. Ceci peut être dû à un biais de confusion : les femmes vivent en moyenne plus longtemps que les hommes. Et un âge plus élevé est également un facteur de risque cardiovasculaire. Votre population d'étude pourrait être plus âgée dans le groupe femmes, ce qui augmenterait artificiellement le risque cardiovasculaire du groupe femmes. En incluant à la fois le sexe et l'âge dans votre modèle, vous corrigez ce biais de confusion.
Nous allons maintenant détailler ces étapes.
C'est généralement l'étape la plus simple. Elle correspond à votre hypothèse de recherche.
Si vous cherchez des facteurs prédictifs de complications post-opératoire, votre variable à étudier Y est "complication post-opératoire".
Elle dépend directement de la première étape.
EasyMedStat choisit automatiquement pour vous le type de modèle en fonction du type de la variable à étudier Y :
Notez que si vous transformez une variable numérique continue en une variable binaire, il faudra utiliser une régression logistique. Par exemple, si vous cherchez à prédire quand un score de douleur est supérieur à 5/10, vous analysez en réalité une variable binaire (> 5/10 = oui, ≤ 5/10 = non).
C'est l'étape la plus cruciale de votre analyse multivariée !
C'est ici que tout se joue. Et bonne nouvelle, il n'est pas nécessaire d'avoir de connaissances avancées en statistiques pour choisir ces variables. Il faut en revanche une bonne connaissance de la pathologie que vous étudiez.
Il y'a 2 types de variables qu'il faut généralement choisir comme variables prédictives :
Prenons un exemple simplifié d'une étude sur un nouveau traitement anti-agrégant visant à prévenir le risque d'infarctus du myocarde chez des patients n'ayant jamais eu d'infarctus (prévention primaire). Vous testez ce nouveau traitement contre un placebo. Votre hypothèse est qu'il y'aura moins d'infarctus du myocarde dans le groupe avec traitement que dans le groupe placebo.
Votre variable d'étude Y est donc la survenue d'un infarctus du myocarde.
La variable X correspondant à votre hypothèse est le traitement suivi par le patient (anti-agrégant ou placebo).
Les variables X connues pour influencer Y sont les facteurs de risque cardiovasculaire : âge, sexe masculin, diabète, ...
Vous devez donc inclure dans votre modèle non seulement le traitement suivi mais également l'âge, le sexe, la présence d'un diabète, etc...
Comme souvent, la bonne réponse est "ni trop, ni trop peu".
Le nombre de variables du modèle doit être adapté au nombre de patients dont vous disposez pour faire votre analyse. Une règle généralement acceptée est d'avoir au moins 10 patients pour chaque variable dans le modèle. Cependant, différents avis sur la question existent.
Cette règle de 10 patients diffère quelque peu si vous réalisez une régression logistique ou linéaire. Pour une régression linéaire, elle est entendue directement : si vous analysez 70 patients, vous pouvez mettre jusqu'à 7 variables prédictives dans le modèle. Pour une régression logistique, on attend 10 patients dans chaque groupe. Donc si vous avez une variable binaire (oui/non) connue pour 70 patients avec 30 patients qui ont la valeur "Oui" et 40 patients qui ont la valeur "Non", on considère le plus petit effectif, soit 30 patients. Vous ne pouvez alors inclure que 3 variables dans le modèle.
Encore une fois, cette règle de 10 patients n'est pas parfaitement consensuelle. Mais c'est une règle fréquemment acceptée.
Lorsque vous réalisez votre analyse multivariée sur EasyMedStat, le nombre de variables prédictives est automatiquement vérifié.
Il est également important de ne pas inclure trop peu de variables dans le modèle. Faute de quoi, votre analyse pourrait être incomplète voire fausse. Si vous n'incluez pas la variable "diabète" dans une étude pour prédire le risque cardiovasculaire, celui-ci risque d'être biaisé.
Comme vous le comprenez, il faut inclure suffisamment de variable pour dessiner un modèle au plus proche de la réalité, mais également analyser suffisamment de patients. C'est pourquoi les analyses multivariées sont généralement réalisées sur des échantillons de taille relativement importante, généralement au moins 100 patients (même si ce nombre est très arbitraire et peut fortement varier selon vos données).
Derrière ce mot barbare se cache un concept relativement simple. Il s'agit de s'assurer que vos variables explicatives X ne sont pas liées statistiquement les unes aux autres de manière trop importante.
Par exemple, vous ne devriez pas inclure dans un modèle la variable poids en même temps que la variable IMC car il existe une relation directe entre ces deux variables (IMC = poids / taille au carré).
EasyMedStat vérifie automatiquement la multicolinéarité de vos variables lorsque vous les incluez pour éviter ce problème.
La véracité statistique de vos résultats dépend du respect des hypothèses du modèle que vous utilisez. En cas de violation de ces hypothèses, il est possible que vos résultats soient erronnés.
Ces hypothèses dépendent du type de modèle que vous utilisez. Elles peuvent comprendre entre autres la linéarité, l'absence d'héteroscédasticité, la normalité des résidus, etc ...
Cependant, ces concepts avancés sont vérifiés automatiquement lorsque vous réalisez une analyse multivariée avec EasyMedStat. En cas de violation d'une des hypothèses, vous en êtes automatiquement informés et une solution vous est proposée si cela est possible.
Comme vous l'avez compris, l'analyse multivariée est une technique statistique avancée mais son utilisation est facilitée en utilisant un logiciel adapté.
C'est justement le cas d'EasyMedStat. Vous êtes guidé tout au long de votre analyse et vous évitez les embûches classiques dans lesquelles vous pourriez tomber autrement.