Observatorio de I+D+i UPM

| Otras actividades
HOME

Proyectos Internacionales Art�culos Patentes UPM Software UPM Empresas UPM Otras actividades Memorias de investigaci�n

Memorias de investigación

Ponencias en congresos:

Diffusion Gradient Temporal Difference for Cooperative Reinforcement Learning with Linear Function Approximation

A�o:2012

�reas de investigaci�n

Procesado y an�lisis de la se�al

Datos

Descripci�n
We introduce a diffusion-based algorithm in which multiple agents cooperate to predict a common and global statevalue function by sharing local estimates and local gradient information among neighbors. Our algorithm is a fully distributed implementation of the gradient temporal difference with linear function approximation, to make it applicable to multiagent settings. Simulations illustrate the benefit of cooperation in learning, as made possible by the proposed algorithm.
Internacional	Si
Nombre congreso	2012 3rd International Workshop on Cognitive Incromation Processing (CIP)
Tipo de participaci�n	960
Lugar del congreso
Revisores	Si
ISBN o ISSN	978-1-4673-1878-5
DOI
Fecha inicio congreso	28/05/2012
Fecha fin congreso	30/05/2012
Desde la p�gina	1
Hasta la p�gina	6
T�tulo de las actas	3rd International Workshop on Cognitive Incromation Processing (CIP)

Ver publicaci�n en Archivo digital upm

Esta actividad pertenece a memorias de investigaci�n

Participantes

Autor: Sergio Valcarcel Macua UPM
Autor: Pavle Belanovic . UPM
Autor: Santiago Zazo Bello UPM

Grupos de investigaci�n, Departamentos, Centros e Institutos de I+D+i relacionados

Creador: Grupo de Investigaci�n: Grupo de Aplicaciones del Procesado de Se�al (GAPS)
Departamento: Se�ales, Sistemas y Radiocomunicaciones