Catégorisation automatique des questions

Stack Overflow est un site web proposant des questions et réponses sur
un large choix de thèmes concernant la programmation informatique. Afin de
retrouver facilement les questions le site permet la soumission de tags. L’objectif de ce projet est d’étudier les différentes possibilités d’automatisation de la soumission des tags. Plusieurs modèles ont été créés à partir des données textuelles des questions. Un point d’entrée d’une API est proposé sous la forme d’une web-app.

Tâches réalisées:

  • collecte de données depuis stackexchange
  • nettoyage
  • préparation des données (retrait balises code, suppression ponctuation et stopwords, Tokenisation et Lemmatisation)
  • analyses descriptive et exploratoire
  • feature engineering (bow, tf-idf)
  • modélisation
  • création d’une wep app (disponible ici -> https://stack-overflow-auto-tag.herokuapp.com/)

Configuration:

Environnement : Colaboratory notebook, CPU

Librairies : pandas, numpy, matplotlib, seaborn, scikit-learn, missingno, bs4, nltk, re