¿Qué es el Tiempo Medio para Reparar y cómo se puede reducir?
El Tiempo Medio para Reparar (MTTR por sus siglas en inglés) es una de las métricas más usadas cuando hablamos de confiabilidad; sin embargo, se trata también de una de las más menospreciadas. Una mejor visión para definirla y para mejorarla de forma sostenible suele estar ausente en muchas organizaciones.
Conforme las compañías modernas continúan dependiendo cada vez más del software para manejar sus negocios, la falta de un entendimiento claro del MTTR no solo representa un inconveniente, sino también una amenaza para las ganancias. La disrupción de la experiencia digital del cliente, mayores riesgos y un incremento de los costos y complejidad del proceso de desarrollo del software pueden ser algunas de las consecuencias.
La clave está en adoptar un acercamiento progresivo para definir y aplicar el MTTR, el cual debe combinar un monitoreo e instrumentación comprehensivos, un proceso confiable de respuesta a incidentes y un equipo que entienda cómo y por qué esta métrica se usa para maximizar la disponibilidad y desempeño de una aplicación.
¿Qué es el Tiempo Medio para Reparar?
Se trata de una medición de la mantenibilidad de un equipo y sus partes reparables. Representa el tiempo promedio para reparar una falla antes de que un equipo regrese a un estado totalmente funcional.
Un Tiempo Medio para Reparar alto puede indicar que el reemplazo de un activo específico puede ser más barato o preferible que repararlo. También puede significar que es necesario contar con más partes de repuesto almacenadas. Sea como sea, reducirlo es fundamental para evitar o minimizar el tiempo de inactividad.
MTTR = Tiempo total de mantenimiento / Número total de reparaciones
Es importante mencionar que el tiempo total de mantenimiento puede abarcar desde el descubrimiento de la falla hasta el momento en que realmente comienzan las reparaciones (esto puede incluir el tiempo invertido en la identificación, notificación, reconocimiento y diagnóstico) Cuando se incorpora todos estos pasos, entonces estamos hablando del Tiempo Medio para la Recuperación.
Consejos para reducir el Tiempo Medio para Reparar
A continuación, cinco tips para disminuir el Tiempo Medio para Reparar y permitir que los usuarios puedan volver a trabajar cuanto antes.
1. Facilitar el registro de tickets
Un Service Desk debe facilitar a los clientes el levantar tickets o solicitudes al habilitar plantillas.
Es usual perderse entre todo lo que ofrecen las herramientas de ITSM, por lo que las cosas suelen complicarse sin que nos demos cuenta. En muchas ocasiones, la formas para notificar una falla toman demasiado tiempo para llenar, además que no brindan la mejor experiencia.
Por esta razón, es sumamente importante asegurarse de que las formas para incidentes y solicitudes sean fáciles de llenar. Estas deben ser simples, sencillas de navegar y no deben significar mucho tiempo invertido para el usuario. Si es posible, también se debe usar la automatización para mantener informados a los clientes sobre el estado de sus tickets, así no tendrán que perder tiempo en tener que ponerse en contacto.
2. Habilitar el autoservicio
Como cliente, no hay nada más frustrante que pasar mucho tiempo navegando por sitios complicados, sistemas de respuesta de voz interactiva y otros obstáculos para obtener ayuda.
El autoservicio, por supuesto, permite que los usuarios finales se ayuden a sí mismos. La posibilidad de resetear contraseñas en línea o de acceder a una base de conocimiento libera a varios agentes para que puedan atender problemas técnicos más desafiantes.
La base de conocimiento debe contener preguntas frecuentes e información útil para los usuarios. Esta, obviamente, debe ser actualizada constantemente; de esta manera, los clientes podrán recurrir a ella en lugar de tener que levantar un ticket.
También lee: ¿Qué es Knowledge Management?
3. Monitorear
¿Cómo arreglar algo que no sabemos que está roto? Tener una visibilidad apropiada de las aplicaciones y la infraestructura es clave para el proceso de respuesta a incidentes.
Supongamos que un servidor que alberga una aplicación se cae, y el único dato disponible para realizar el diagnóstico del problema es la ausencia de una luz en el servidor. El equipo de respuesta es forzado a diagnosticar lo sucedido con meras suposiciones, las cuales significarán un proceso de reparación largo y costoso, así como un MTRR más alto.
Si, por ejemplo, los datos de monitoreo en tiempo fluyen de la aplicación o el servidor brindando lecturas precisas sobre el uso de la memoria de almacenamiento, tiempos de respuesta, etc, el equipo podrá formular una teoría basada en datos duros.
Aunado a ello, el monitoreo puede ser usado para evaluar el impacto de una solución mientras es aplicada, con lo que será posible moverse del diagnóstico a la resolución rápidamente. En suma, el monitoreo es vital para promover un proceso de resolución de incidentes efectivos y reducir el Tiempo Medio para Reparar.
4. Dar seguimiento a los incidentes
Una parte de la reducción del MTTR involucra un procedimiento de seguimiento de incidentes. Se trata de la investigación de lo que ocurrió, por qué y la identificación del evento que lo desencadenó todo, así como las posibles causas. De esta manera, se puede diseñar una estrategia para prevenir que el problema vuelva a ocurrir.
De igual forma, un proceso de no repetición de incidentes (DRI por sus siglas en inglés) se encarga de que el trabajo en un servicio se detenga hasta que las causas del problema se hayan mitigado. Este refuerza el compromiso con la resolución en lugar de resignarse con las soluciones a corto plazo; además, ayuda a los equipos a ser totalmente responsables de cerrar el bucle en el proceso de resolución de incidentes. Así, todos recordarán que la calidad es imperativa, y no una opción.
5. Automatizar el diagnóstico de problemas comunes
Las plataformas de ITSM otorgan una gran visibilidad de los incidentes en los que está trabajando el Service Desk. Estos reportes permiten identificar los problemas más comunes en los que hay que enfocarse. Una vez que se han marcado los 3 o 5 más importantes, entonces lo ideal es buscar cómo automatizarlos. Los más complicados no deberían ser la prioridad, sino aquellos con los que se pueda demostrar el éxito desde el inicio.
Reducir el Tiempo Medio para Reparar permite disminuir tiempos y esfuerzos. Al facilitarles a los empleados el acceso a la ayuda y la posibilidad de compartir conocimiento, la frecuencia y severidad de los incidentes comenzará a reducirse. El tiempo de inactividad pronto será cosa del pasado.
Si quieres aprender más sobre los distintos servicios de TI y comunicarte en un mismo de idioma, te invitamos a checar nuestro curso de ITSM: Conceptos básicos, en nuestra plataforma de capacitación.
Fuentes: Joe the IT Guy, New Relic, NetBrain