Malheureusement cette offre n'est plus active

Stage : Stage apprentissage par renforcement pour des signaux retardés (F/H) à Palaiseau

Stage : Stage apprentissage par renforcement pour des signaux retardés (F/H)

4 - 40 heures par semaine

Description du poste

PALAISEAU-NANO INNOV(FRA) Description du poste Vos missions: ·  Construction d'un état de l'art complet des algorithmes d'apprentissage par renforcement pour des séries temporelles retardées ·  Implémentation de l'état de l'art sous forme d'un package codé en langage Python ·  Test des algorithmes implémentés sur l'environnement de simulation d'une supply chain ·  Rédaction d'un mémoire de recherche avec résultats détaillés ·  Présentation technique et scientifique lors de séminaire interne. Compétences développées au cours de la mission: ·  Analyse bibliographique de l'état de l'art ·  Implémentation efficace d'algorithmes d'apprentissage par renforcement ·  Rédaction et présentation scientifique, Réfèrence 37482BR Pays France Durée du contrat 6 A propos de nous/Profil de l'entreprise BETTER ENERGY NEEDS YOU Donnez le meilleur de vous-même à l’énergie ! Rejoignez TOTAL : plus de 500 métiers différents dans 130 pays. Une entreprise responsable avec des standards de sécurité et d’éthique forts, des perspectives d’évolution de carrière variées, une culture de l’innovation et une mission partagée par les 100.000 collaborateurs du Groupe : rendre l’énergie meilleure jour après jour. Profil recherché Vous préparez un BAC+5 en Mathématiques ou Informatique et êtes à la recherche d'un stage de fin d'études de 6 mois à compter d'avril 2021.  Connaissances techniques: ·  Vous justifiez idéalement d'une première expérience ou d'un premier projet académique en apprentissage par renforcement ·  Python (pytorch, tensorflow, numpy, ...) ·  Statistiques & probabilités Aptitudes requises: ·  Implémentation des algorithmes d'apprentissage par renforcement ·  Théorie de la statistique, théorie des probabilités ·  Rigueur mathématique Métier R&D Analytique Intitulé du poste Stage en apprentissage par renforcement pour des signaux retardés (F/H) Unité de temps Mois Branche Holding Région, département, localité 91 - Essonne Domaine professionnel Recherche Innovation&Développt Niveau d’expérience requis Moins de 3 ans Type d’emploi Stage conventionné Contexte et Environnement Le groupe Total est un acteur majeur de l’énergie, qui produit et commercialise des carburants, du gaz naturel et de l’électricité bas carbone.L'équipe R&D de Total@Saclay s'intéresse aux problématiques du numérique qui s'applique à l'optimisation des processus industriels de Total. Parmi les algorithmes majeures d'optimisation on retrouve l'apprentissage par renforcement.Le stage a pour but d'explorer le domaine de l'apprentissage par renforcement pour une série temporelle retardée (reinforcement learning with delayed rewards). Il s'agit actuellement d'un grand challenge que la communauté n'a pas encore réussi à résoudre.L’apprentissage par renforcement s’est imposé ces dernières années comme une thématique incontournable de la recherche en intelligence artificielle. Tout comme d’autres méthodes d’apprentissage automatique, les techniques d'apprentissage par renforcement utilisées ne datent pas d’hier (l’algorithme de Q-learning a été introduit en 1989), mais se sont révélées aux yeux du monde grâce à des avancées emblématiques (DeepMind a atteint en 2014 des performances surhumaines à la quasi-totalité des jeux Atari, avant de battre une légende du jeu de Go deux ans plus tard). Ces avancées n'ont été réalisées qu'en ayant supposé que la fonction de récompense est observée instantanément par l'agent apprenant. Malheureusement, pour des use-cases réalistes et industriels, les algorithmes actuels doivent être adaptés pour gérer un environnement dit retardé. D'où l'objectif de ce stage : développer des algorithmes de RL pour des séries temporelles retardées et de les éprouver sur des use cases industriels de Total. Le use case le plus adapté pour ce challenge est la gestion de l'inventaire où les stocks sont reçus avec un délai. Livrables: mémoire de recherche (Master 2), code source d'algorithmes RL développés au cours du stage.

Date de publication

26-03-2024

Informations supplémentaires

Statut
Inactif
Formation requise
Université
Lieu
Palaiseau
Heures de travail par semaine
4 - 40
Type de Contrat
Job étudiant
Secteur
Autres
Permis de conduire FR/EU exigé
Non
Voiture exigée
Non
Lettre de motivation exigée
Non
Langues
Français

Palaiseau | Offres d'emploi autres | Job étudiant | Université