SDC, Science des Données et Connaissances

Clément Charnay

De SDC, Science des Données et Connaissances
Aller à la navigation Aller à la recherche

Ancien doctorant dans l'équipe SDC (anciennement BFO) du laboratoire ICube de l'Université de Strasbourg, d'octobre 2012 à juin 2016.

Contact

Clément CHARNAY
Laboratoire ICube
Télécom Physique Strasbourg
300 bd Sébastien Brant - CS 10413
F - 67412 Illkirch cedex
Bureau C331
Téléphone : +33 (0) 3 68 85 45 78
Courriel : charnay (at) unistra (point) fr

Recherche

Thèse de doctorat

Titre : Enhancing Supervised Learning with Complex Aggregate Features and Context Sensitivity

Direction : Nicolas Lachiche (MCF HDR, ICube-SDC)

Encadrement : Agnès Braud (MCF, ICube-SDC)

Financement : Bourse MESR

Soutenue le : 30 juin 2016

Description : Cette thèse s'intéresse à deux points forts du thème fouille de données de l'équipe SDC du laboratoire ICube : la fouille de données relationnelles d'une part, et l'apprentissage sensible au coût d'autre part. Ces deux points sont actuellement étudiés dans le cadre du projet européen REFRAME, mené en collaboration avec l'Université de Bristol et l'Université Polytechnique de Valencia.

La fouille de données relationnelles est un sous-domaine du data mining où les données ne sont pas représentées sous le format attribut-valeur classique, dans lequel chaque ligne d'une unique table représenterait une instance d'entraînement d'un modèle avec ses propriétés, dont l'attribut à prédire. Les données sont ici représentées dans plusieurs tables liées par des clés étrangères, qui représentent les différents objets intervenant dans le problème. Une table, appelée table principale, contient les instances d'entraînement (par exemple, des molécules) avec l'attribut à apprendre et d'autres tables (par exemple, une table des atomes formant ces molécules) contiennent les objets secondaires liés aux principaux. On cherche à prendre en compte les propriétés de ces objets secondaires pour l'apprentissage sur les objets principaux. Une manière de procéder, à laquelle on s'intéresse particulièrement, est l'utilisation d'agrégats complexes. Ils consistent à agréger les objets secondaires liés à un objet principal qui vérifient une certaine condition. De façon plus intuitive, ils permettent de résumer en une valeur la table secondaire. Deux exemples d'un tel agrégat seraient le nombre des atomes de carbone de la molécule, ou la moyenne de la charge des atomes d'oxygène de la molécule. Cependant, avec le nombre de possibilités pour la condition d'agrégation et la fonction, la génération exhaustive de tous les agrégats complexes est impossible. L'un des objectifs de la thèse est donc de proposer une heuristique permettant d'explorer l'espace des agrégats complexes et de générer de façon incrémentale ceux qui sont pertinents pour répondre au problème posé.

L'autre domaine dans lequel s'inscrit la thèse est l'apprentissage multi-classes sensible au coût. Dans ce type de problème, l'attribut à apprendre peut prendre de nombreuses valeurs, i.e. plus de 2, contrairement aux problèmes binaires pour lesquels une majorité des algorithmes d'apprentissage sont conçus. De plus, les erreurs de classification n'ont pas toutes le même coût, comme on pourrait s'y attendre par exemple dans un domaine médical, où diagnostiquer une maladie chez un patient sain n'aura pas le même impact que ne pas la diagnostiquer chez un patient malade. Dans ce cadre, on s'intéresse plus particulièrement aux approches de binarisation, qui consistent à réduire un problème multi-classes en plusieurs problèmes binaires. Plus particulièrement, nous nous plaçons dans le cas où la binarisation utilise des classifieurs à scores, ces scores étant ensuite utilisés pour définir des seuils de décision entre les deux classes des sous-problèmes binaires.

Enseignement

Missionné enseignement à l'UFR Mathématiques-Informatique et à l'IUT Robert Schuman de l'Université de Strasbourg.

2014/2015 :

  • IUT Informatique S1 : Bases de données et SQL (10h TD/28h TP)
  • IUT Informatique S1 : Introduction à l'algorithmique et à la programmation (26h TP)

2013/2014 :

  • IUT Informatique S1 : Bases de données et SQL (10h TD/28h TP)
  • IUT Informatique S1 : Structures de données et algorithmes fondamentaux (14h TD/14h TP)

2012/2013 :

  • L3/S6P Mathématiques : Programmation Orientée Objet (18h TD/12h TP)
  • L3/S5P Informatique : Bases de Données 2 (22h TP)
  • L3/S5P Informatique : Fondements des Systèmes d'Exploitation (12h TP)

Publications

<anyweb>http://icube-publis.unistra.fr/?author=Charnay&=#hideMenu</anyweb>