Без категорії

Modèle de régression logistique

Deux mesures de déviance sont particulièrement importantes dans la régression logistique: déviance nulle et déviance du modèle. La déviation null représente la différence entre un modèle avec seulement l`interception (ce qui signifie «pas de prédicteurs») et le modèle saturé. La déviance du modèle représente la différence entre un modèle avec au moins un prédicteur et le modèle saturé. [29] à cet égard, le modèle null fournit une ligne de base sur laquelle comparer les modèles de prédicteurs. Étant donné que la déviance est une mesure de la différence entre un modèle donné et le modèle saturé, les valeurs plus petites indiquent un meilleur ajustement. Ainsi, pour évaluer la contribution d`un prédicteur ou d`un ensemble de prédicteurs, on peut soustraire la déviance du modèle de la déviance nulle et évaluer la différence sur une distribution de khi s − p 2, {displaystyle chi _ {s-p} ^ {2},} avec degrés de liberté [14] égale à la différence dans le nombre de paramètres estimés. Comme dans la régression linéaire, les variables de résultat Yi sont supposées dépendre des variables explicatives x1, i… XM, i. Pour une mise au point de machine learning (par exemple, pour faire des prédictions précises uniquement), jetez un oeil à la couverture de la régression logistique dans certains des textes de machine learning populaires ci-dessous: une variable indépendante avec un coefficient de régression non significativement différente de 0 (P > 0.05) peut être retiré du modèle de régression (appuyez sur la touche de fonction F7 pour répéter la procédure de régression logistique). Si P < 0.05 alors la variable contribue de manière significative à la prédiction de la variable de résultat.

La plupart des logiciels statistiques peuvent faire la régression logistique binaire. La configuration de base de la régression logistique est la suivante. Nous sommes donnés un jeu de données contenant N points. Chaque point i se compose d`un ensemble de m variables d`entrée x1, i… XM, i (également appelées variables indépendantes, variables prédictitrices, caractéristiques ou attributs), et une variable de résultat binaire Yi (également appelée variable dépendante, variable de réponse, variable de sortie ou classe), c`est-à-dire qu`elle ne peut assumer que les deux valeurs possibles 0 (souvent signifiant «non» ou «échec») ou 1 (signifiant souvent «oui» ou «succès»). L`objectif de la régression logistique est d`utiliser le jeu de données pour créer un modèle prédictif de la variable de résultat. où β 0,…, β m {displaystyle beta _ {0}, ldots, beta _ {m}} sont des coefficients de régression indiquant l`effet relatif d`une variable explicative particulière sur le résultat. Bien que le côté gauche de cette équation semble intimidant, cette façon d`exprimer la probabilité des résultats dans le côté droit de l`équation étant linéaire et à la recherche familier pour nous. Cela nous aide à comprendre la signification des coefficients de régression.

Les coefficients peuvent facilement être transformés afin que leur interprétation soit logique. 2. Considérez l`année 2016. Pour les clients qui ont Baré en juillet` 16 (période d`observation) considèrent Jan-juin` 16 comme la durée pour la création de variables indépendantes, pour le client Baré en août` 16 considèrent fév-juillet` 16 pour la création de variables indépendantes ainsi qu`un indicateur si le le client a été baratté dans le mois dernier ou pas (auto régression aveugle de cas). Ajoutez cette ligne de données, prenez un échantillon aléatoire à partir de celui-ci pour la formation et le repos pour les tests. (ici, je me sens variables dépendantes aura saisonnalité que la variable créée aurait considéré différents mois) R2CS est un indice alternatif de la bonté de l`ajustement lié à la valeur de R2 de la régression linéaire. [30] il est donné par: par exemple, la variable SMOKING est codée comme 0 (= non fumeur) et 1 (= fumer), et le ratio de cotes pour cette variable est 2,64.

print

About the author

Acrobat

View all posts