Observatorio de I+D+i UPM

Memorias de investigación
Ponencias en congresos:
Diffusion Gradient Temporal Difference for Cooperative Reinforcement Learning with Linear Function Approximation
Año:2012
Áreas de investigación
  • Procesado y análisis de la señal
Datos
Descripción
We introduce a diffusion-based algorithm in which multiple agents cooperate to predict a common and global statevalue function by sharing local estimates and local gradient information among neighbors. Our algorithm is a fully distributed implementation of the gradient temporal difference with linear function approximation, to make it applicable to multiagent settings. Simulations illustrate the benefit of cooperation in learning, as made possible by the proposed algorithm.
Internacional
Si
Nombre congreso
2012 3rd International Workshop on Cognitive Incromation Processing (CIP)
Tipo de participación
960
Lugar del congreso
Revisores
Si
ISBN o ISSN
978-1-4673-1878-5
DOI
Fecha inicio congreso
28/05/2012
Fecha fin congreso
30/05/2012
Desde la página
1
Hasta la página
6
Título de las actas
3rd International Workshop on Cognitive Incromation Processing (CIP)
Esta actividad pertenece a memorias de investigación
Participantes
  • Autor: Sergio Valcarcel Macua (UPM)
  • Autor: Pavle Belanovic (UPM)
  • Autor: Santiago Zazo Bello (UPM)
Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Aplicaciones del Procesado de Señal (GAPS)
  • Departamento: Señales, Sistemas y Radiocomunicaciones
S2i 2021 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)