Memorias de investigación
Ponencias en congresos:
Diffusion Gradient Temporal Difference for Cooperative Reinforcement Learning with Linear Function Approximation
Año:2012

Áreas de investigación
  • Procesado y análisis de la señal

Datos
Descripción
We introduce a diffusion-based algorithm in which multiple agents cooperate to predict a common and global statevalue function by sharing local estimates and local gradient information among neighbors. Our algorithm is a fully distributed implementation of the gradient temporal difference with linear function approximation, to make it applicable to multiagent settings. Simulations illustrate the benefit of cooperation in learning, as made possible by the proposed algorithm.
Internacional
Si
Nombre congreso
2012 3rd International Workshop on Cognitive Incromation Processing (CIP)
Tipo de participación
960
Lugar del congreso
Revisores
Si
ISBN o ISSN
978-1-4673-1878-5
DOI
Fecha inicio congreso
28/05/2012
Fecha fin congreso
30/05/2012
Desde la página
1
Hasta la página
6
Título de las actas
3rd International Workshop on Cognitive Incromation Processing (CIP)

Esta actividad pertenece a memorias de investigación

Participantes
  • Autor: Sergio Valcarcel Macua UPM
  • Autor: Pavle Belanovic . UPM
  • Autor: Santiago Zazo Bello UPM

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Aplicaciones del Procesado de Señal (GAPS)
  • Departamento: Señales, Sistemas y Radiocomunicaciones