Malheureusement cette offre n'est plus active

Orange Stagiaire Apprentissage par Renforcement pour l'Optimisation de Campagne Marketing H/F

Description du poste

Orange recherche ...

L'équipe d'accueil à Orange Labs, spécialisée en apprentissage statistique et analyse de données, compte actuellement 20 membres permanents et 4 doctorants. L'équipe est reconnue au sein du groupe pour son expertise. Nous publions régulièrement dans les meilleures conférences et revues internationales du domaine.

L'objectif de ce stage de 6 mois à compter de mars 2020 est d'améliorer un algorithme existant de bandit contextuel conçu pour l'optimisation de campagne marketing.
Orange lance régulièrement des campagnes marketing pour promouvoir ses produits et services. L'objectif est de trouver parmi les clients d'Orange, ceux qui sont susceptibles de souscrire au service lorsqu'ils sont sollicités par une campagne marketing.
La méthode habituelle consiste à construire des top-scores en inférant un modèle prédictif à partir des profils des clients qui ont déjà souscrit sans aucune sollicitation. Malheureusement, il arrive que les campagnes marketing basées sur les top-scores soient inefficaces, car elles ciblent les clients qui auraient souscrit au service sans aucune sollicitation.
Une autre approche consiste à poser le problème de l'optimisation de campagnes marketing comme un problème d'apprentissage par renforcement. Le but est alors de maximiser le nombre total de souscriptions (la récompense cumulée) en choisissant séquentiellement la campagne marketing d'un client en fonction de son profil et des souscriptions précédentes.
L'objectif du stage est d'améliorer un algorithme existant de bandit contextuel conçu pour l'optimisation de campagne marketing. Cet algorithme utilise une approche de random forest pour choisir la meilleure action (i.e. la meilleure campagne marketing) étant donné un contexte observé (i.e. le profil du client et la description de la campagne) et les précédentes interactions (l'historique profil client, campagne choisie, souscription o/n). Nous avons précédemment montré que cet algorithme est quasiment optimal pour le problème du bandit contextuel.
Néanmoins, il a deux défauts : une efficacité d'échantillonnage empirique (i.e. nombre d'interactions nécessaires) moyenne et pas d'adaptation aux environnements évolutifs.
Vous testerez deux approches pour améliorer l'efficacité d'échantillonnage effective : une consistant à utiliser un meilleur algorithme de choix des variables de coupure utilisées dans les arbres, et l'autre consistant à choisir des combinaisons de variables de coupure plutôt qu'une seule.
Pour les environnements évolutifs, vous évaluerez deux approches : la première consistant à construire une fenêtre glissante de modèles, et l'autre consistant à détecter les changements de performances des modèles construits à différents instants.
La validation des approches s'appuiera sur une étude expérimentale et éventuellement sur une étude analytique. Le résultat attendu du stage est en plus du rapport de stage, un code en C++ et une publication dans une conférence.

Vous êtes ...

Dans le cadre de votre formation Bac +5 informatique / math appliquées / statistiques, vous êtes à la recherche d'un stage de 6 mois

Compétences :
Ce sujet requiert une bonne culture en informatique et mathématique appliquée.

Date de publication

20-03-2024

Informations supplémentaires

Statut
Inactif
Lieu
Orange
Type de Contrat
CDI - Temps plein
Secteur
Construction / BTP, Vente
Permis de conduire FR/EU exigé
Non
Voiture exigée
Non
Lettre de motivation exigée
Non