Memorias de investigación
Artículos en revistas:
Reliability of a System of k Nodes for High Performance Computing Applications
Año:2010

Áreas de investigación
  • Ciencias de la computación y tecnología informática

Datos
Descripción
Reliability estimation of High Performance Computing (HPC) systems enables resource allocation, and fault tolerance frameworks to minimize the performance loss due to unexpected failures. Recent studies have shown that compute nodes in HPC systems follow a time varying failure rate distribution such as Weibull, instead of the exponential distribution. In this paper, we propose a model for the Time to Failure (TTF) distribution of a system of k s-independent nodes when individual nodes exhibit time varying failure rates. We also present the system reliability, failure rates, Mean Time to Failure (MTTF), and derivations of the proposed system TTF model. The model is validated using observed data on time to failure.
Internacional
Si
JCR del ISI
Si
Título de la revista
IEEE TRANSACTIONS ON RELIABILITY
ISSN
0018-9529
Factor de impacto JCR
1,331
Información de impacto
Volumen
DOI
Número de revista
Desde la página
162
Hasta la página
169
Mes
ENERO
Ranking

Esta actividad pertenece a memorias de investigación

Participantes
  • Autor: Mihaela Marinela Paun . UPM

Grupos de investigación, Departamentos, Centros e Institutos de I+D+i relacionados
  • Creador: Grupo de Investigación: Grupo de Inteligencia Artificial (LIA)