[article]
Titre : |
Eduquer les modèles de langage |
Type de document : |
texte imprimé |
Auteurs : |
Arnaud Devillard |
Editeur : |
Sciences et avenir, 2024 |
Article : |
p.38-39 |
Langues : |
Français (fre) |
in Sciences et avenir (1949) > 933 (11/2024)
Mots-clés : |
assistant personnel virtuel apprentissage automatique |
Résumé : |
Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge). |
Nature du document : |
documentaire |
Genre : |
Article de périodique |
[article] Eduquer les modèles de langage [texte imprimé] / Arnaud Devillard . - Sciences et avenir, 2024 . - p.38-39. Langues : Français ( fre) in Sciences et avenir (1949) > 933 (11/2024)
Mots-clés : |
assistant personnel virtuel apprentissage automatique |
Résumé : |
Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge). |
Nature du document : |
documentaire |
Genre : |
Article de périodique |
|
Eduquer les modèles de langage
de Arnaud Devillard
In Sciences et avenir (1949), 933 (11/2024), p.38-39
Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge).
|
Devillard Arnaud.
« Eduquer les modèles de langage »
in Sciences et avenir (1949), 933 (11/2024), p.38-39.
|  |