Conférence EGC 2009, Strasbourg, 27-30 janvier 2009

Tutoriels d'analyse de données séquentielles

Gilbert Ritschard, Alexis Gabadinho, Nicolas S. Müller et Matthias Studer
Groupe biomining (biographical data mining)
Département d'économétrie et Laboratoire de démographie, Université de Genève

Deux tutoriels sont offerts Brochure (en format pdf) contenant l'ensemble des dias des deux tutoriels.

Ces tutoriels proposent une introduction aux concepts et à la pratique de la fouille de données séquentielles catégorielles. Les données séquentielles considérées sont des suites ordonnées de symboles (lettres, signaux, états, événements, ...) et sont au cœur de domaines aussi divers que la fouille de texte, l'examen de séquences ADN, le monitoring de l'activation d'appareils, l'étude des comportements dans le temps d'acheteurs ou d'utilisateurs, ou encore l'étude de carrières et parcours de vie pour ne citer que quelques exemples.


Tutoriel 1 (mardi 27 janvier, 9h-12h30, salle J0b)

Données séquentielles : Concepts et principes d'analyse

1  Objectif

L'objectif du cours est d'initier les participants aux concepts et questionnements propres aux données séquentielles catégorielles et aux principes de l'analyse et de la représentation de séquences. Les données séquentielles pouvant prendre des formes très diverses, on peut préciser ici que le cours traite essentiellement de données constituées d'un ensemble de séquences individuelles, les séquences individuelles étant des suites de l éléments choisis dans un alphabet fini de taille k. On considère typiquement des cas où, pour donner un ordre de grandeur, l < 100 et k < 20. Après avoir dressé une ontologie des types de séquences et des possibilités de les formater, on commencera par traiter de la représentation agrégée d'ensemble de séquences, puis nous introduirons un ensemble d'indicateurs synthétisant la nature de séquences individuelles et discuterons de métriques pour évaluer la similarité de paires de séquences. Ces dernières seront exploitées notamment pour réaliser des classifications non supervisées de séquences ou pour en donner des représentations sous forme de nuage de points à l'aide du Muldimensional Scaling. (MDS). Nous traiterons également de l'extraction de sous-séquences fréquentes ainsi que de la recherche de sous-séquences discriminantes.
Le cours est avant tout orienté utilisateur. Ainsi, les concepts introduits seront largement illustrés sur divers exemples. Par ailleurs, le cours sera suivi d'un second tutoriel consacré à la pratique de la fouille de données séquentielles dans R avec le package TraMineR que nous avons développé.

2  Plan

Dias.


Tutoriel 2 (mardi 27 janvier, 14h-17h30, salle J4)

Données séquentielles : Pratique de la fouille de séquences

1  Objectif

Ce deuxième tutoriel est consacré à la pratique de l'analyse de données séquentielles dans R (voir The R-Project for Statistical Computing) avec le package TraMineR librement téléchargeable depuis le CRAN (Comprehensive R Archive Network). Le cours sera donné en salle informatique, mais nous invitons les participants à venir avec leur propre ordinateur portable sur lequel ils auront au préalable installé R et le package TraMineR.

Si vous voulez utiliser votre machine, vérifiez que vous avez
R 2.8.1 et TraMiner 1.1

2  Plan

Dias.


Last modified: January 20, 2008.