Alea

{ R et statistique en sciences sociales }

Twitter   Flux Atom

recherche

Aller au contenu | Aller au menu | Aller à la recherche

Jouons au foot avec R (simulations de fins de championnat)

Je viens de mettre en ligne sur data.nozav.org un essai de simulations de fins de championnats de football. L’idée est d’utiliser les matchs déjà joués pour évaluer les probabilités de victoires, nuls et défaites à domicile et à l’extérieur, et d’utiliser ces probabilités pour estimer les chances des différentes issues pour les rencontres à venir. On peut ensuite simuler plusieurs milliers de fins de championnats possibles, et voir quels sont les résultats et classements au final les plus probables.

Le billet décrivant plus précisément la méthode est là :

Et surtout l’application permettant de visualiser les simulations régulièrement mises à jour pour les championnats de Ligue 1, Ligue 2 et National est accessible ici :

Comme d’habitude le code source R et les données sont disponibles sur Github.

questionr 0.3, et premier essai d'interfaces graphiques pour le recodage

La version 0.3 de l’extension questionr est désormais disponible sur le CRAN.

Cette version propose notamment plusieurs fonctions fournies par Joseph Larmarange pour la manipulation des données ou le calcul des odds ratios.

Une autre nouveauté concerne la création d’interfaces graphiques pour générer le code R relatif à des opérations de recodage assez courantes. Trois fonctions sont disponibles (et en état de test) pour le moment :

  • La fonction irec permet le recodage des valeurs d’une variable qualitative (modification des labels, regroupement de valeurs)
  • iorder permet d’ordonner les valeurs d’une variable (pour une meilleure lisibilité dans les tris à plat et tris croisés par exemple)
  • icut permet de découper une variable numérique en classes

Pour plus de détails, on pourra se reporter à la page Interfaces interactives du wiki de questionr.

Et pour tester le fonctionnement :

library(questionr)
data(hdv2003)
irec(hdv2003, qualif)

Mise à jour du document "Introduction à R"

Je viens de mettre en ligne une mise à jour assez conséquente du document Introduction à R, du coup passé symboliquement en version 2.0.

Cette mise à jour remplace les mentions de l’extension rgrs par sa remplaçante, questionr, remet à jour certaines informations un peu datées, et profite des nombreuses corrections et suggestions suite à la relecture attentive de Milan Bouchet-Valat. Par ailleurs, la partie sur la cartographie a été supprimée car jugée désormais obsolète, et une section de présentation rapide de knitr a été ajoutée.

Le lien vers le PDF :

Par ailleurs, les sources du document sont désormais hébergées sur Github et librement accessibles. Les personnes souhaitant apporter des corrections peuvent donc, si elles le souhaitent, le faire sous forme de pull request :

Comme d’habitude, les suggestions de correction et d’amélioration sont toujours les bienvenues !

Rgrs devient questionr

En préparation depuis quelques temps, la migration de l'extension rgrs vers son successeur, baptisé questionr, est désormais finalisé.

questionr est une extension reprenant de nombreuses fonctions de rgrs, à l'exception des fonctions cartographiques, jugées désormais obsolètes compte tenu du nombre depackages proposant des fonctionnalités bien plus puissantes, et des fonction permettant le traitement des données issues de Modalisa, peu utiles et peu utilisées. Pas de panique cependant, si vous avez utilisé ces fonctions dans des analyses, rgrs est maintenue afin de garantir la compatibilité pour les prochaines versions de R.

Ceux qui utilisent actuellement rgrs et souhaitent passer à questionr n'ont qu'à installer cette dernière :

install.packages("questionr", dep=TRUE)

Et à la charger de la manière habituelle avec library en début de code :

library(questionr)

À l'exception des fonctions cartographiques et liées à Modalisa, les noms et interfaces de toutes les fonctions ont été conservées. La compatibilité avec votre code utilisant rgrs devrait donc être garantie, et remplacer library(rgrs) par library(questionr) devrait suffire et fonctionner de manière transparente. Si vous utilisez l'une des fonctions supprimées de rgrs, vous pouvez toujours installer cette dernière extension. Dans ce cas, les fonctionnalités supprimées resteront accessibles, tandis que les autres feront automatiquement appel à leur équivalent dans questionr.

questionr bénéficie également de plusieurs nouvelles fonctions développées par François Briatte. Les liens présentés sur la page de l'extension vous donneront des informations supplémentaires.

Nous avons essayé de faire en sorte que la transition d'une extension à l'autre soit la plus simple et la plus transparente possible. Si vous rencontrez des problèmes, n'hésitez pas à nous le signaler !

Résultats et classification des bureaux de vote de Lyon d'après les présidentielles de 2012

Je viens de mettre en ligne un nouvel article sur data.nozav.org, à savoir les résultats des présidentielles de 2012 au niveau du bureau de vote pour la commune de Lyon, ainsi qu’une classification des bureaux en question. Le Grand Lyon venant de mettre en ligne sur le portail SmartData le contour des zonages des bureaux de la commune, cela permet une représentation cartographiques de ces résultats.

Comme pour la classification précédente, données et code source R sont accessibles sur Github.

Pour lire la suite :

Classification des communes françaises selon la présidentielle de 2012

Je viens de mette en ligne un nouveau site : data.nozav.org. L'objectif est d'y publier des analyses ouvertes, dont le code source sera librement accessible, et basées sur des données disponibles sous licence type opendata.

Premier article pour l'instant : une classification des communes françaises selon les résultats du premier tour des présidentielles de 2012. Si jamais ça vous intéresse, c'est par ici :

Deuxièmes Rencontres R, Lyon, 27-28 juin 2013

Dans la lignée de la conférence internationale Use'R et suite à la première édition qui a eu lieu à Bordeaux les 2 et 3 juillet 2012, les Deuxièmes Rencontres R auront lieu les 27 et 28 juin 2013 à Lyon :

http://r2013-lyon.sciencesconf.org

L’esprit de ces rencontres est de fournir à l’échelle nationale un lieu d’échange et de partage d’idées sur l’usage du logiciel R dans différentes disciplines (visualisation et graphiques, statistique appliquée, biostatistique, statistique bayésienne, bioinformatique, analyse de données, modélisation, machine learning, high performance computing...).

Ces rencontres sont destinées à tous types d’utilisateurs de R : les chercheurs, les enseignants, les industriels, les étudiants, ... Elles s'adressent aussi bien aux débutants qu'aux utilisateurs confirmés et expérimentés.

Le programme sera constitué de conférences plénières, de communications libres, de lightning talks et de posters présentant :

  • de nouveaux développements en Statistique et leur implémentation dans R,
  • de nouveaux packages R,
  • des applications ou études de cas originales utilisant R (génétique, bioinformatique, environnement, psychométrie, sciences sociales, neurosciences...),
  • des aspects informatiques du logiciel R (calcul parallèle, visualisation & graphiques, interfaçage avec d’autres logiciels...),
  • des aspects « enseignement et pédagogie avec R ».

Tous les utilisateurs de R sont donc invités à présenter une communication lors de ces rencontres.

Dès à présent et avant le 7 avril 2013, les propositions de communication peuvent être soumises sous la forme d’un résumé d’une à deux pages sur le site http://r2013-lyon.sciencesconf.org.

Une collection Hal des résumés sera disponible sur Hal Inria à l'issue des rencontres.

Pour nous contacter :

mail : r2013-lyon@sciencesconf.org

Dichotomiser des variables sous R

Présentation de plusieurs méthodes permettant de dichotomiser une variable, c'est-à-dire de transformer chaque modalité de réponse en une nouvelle variable indicatrice de la présence de cette modalité.

Lire la suite...

Manipulation de chaînes de caractères avec stringr

L'extension stringr, développée par Hadley Wickham, propose une interface unifiée et simplifiée à différentes fonctions de manipulations des chaînes de caractères.

Lire la suite...

Manipulation des données avec reshape

http://alea.fr.eu.org/public/_____________reshape1.png
reshape est une extension développée par Hadley Wickham. Elle permet de passer facilement d'un format de données «long» (une ligne par individu et par variable) à un format «large» (une seule ligne par individu). Elle est notamment utile pour mettre en forme les données avant utilisation des fonctions graphiques de ggplot2.

Lire la suite...

- page 1 de 3