4 Pasos para mejorar el informe rendimiento de la red | NETSCOUT
Documentos técnicos
| Documentos técnicos |

4 Pasos para mejorar el informe rendimiento de la red

Introducción
La red de TI está en el corazón de la mayoría de las empresas, apoyando aplicaciones críticas del negocio, proporcionando los datos en los cuales se toman las decisiones económicas facilitando las comunicaciones con los clientes, socios, proveedores y compañeros de trabajo. Ahora más que nunca, es un activo estratégico del negocio, y cualquier tiempo de inactividad o degradación en rendimiento de la red o aplicaciones afectará directamente el balance de la organización. Para entregar los niveles de servicio acordados con el negocio, el reto es doble: por una parte, mejorar de forma dinámica y optimizar el rendimiento para garantizar que la red proporciona lo que los usuarios y la empresa necesitan, y resolver cualquier problema que pueda surgir tan rápido como sea posible para minimizar el tiempo de inactividad. Este documento técnico explora la metodología de solucionar problemas del funcionamiento de la red y de aplicaciones y delinea una nueva estrategia para encontrar la causa de raíz de manera más rápida.

INTRODUCCIÓN

Averiguar la raíz del problema de redes y aplicaciones es cada vez más difícil y una pérdida de tiempo en las redes empresariales de hoy. La virtualización se está ampliando desde el centro de datos hasta el escritorio, los servicios en la nube están creciendo en popularidad y BYOD (traiga su propio dispositivo) está aquí para quedarse, reflejando el cambio de patrones de trabajo y cambio cultural.

Los problemas pueden tener su origen en la proliferación de dispositivos Wi-Fi, un uso excesivo de ancho de banda por parte de aplicaciones no autorizadas, errores de configuración, una infraestructura de distribución de aplicaciones deficiente o muchas otras causas. La creciente inclusión de voz y vídeo añade aún más complejidad y lleva al ancho de banda hasta el límite de su capacidad.

La solución de problemas de rendimiento se vuelve más complicada y lenta por el desafío que supone tener que determinar de quién es la responsabilidad, sobre todo cuando todos los grupos indican KPI positivos.


El proceso para abordar problemas de rendimiento de redes


Para llegar a la raíz de los problemas de rendimiento de redes, se sigue un proceso de resolución de problemas:

Figura 1: el flujo de trabajo para resolver problemas.



Estas herramientas para ayudar a resolver problemas se dividen en dos categorías: sistemas de gestión de redes (NMS) y herramientas de captura y análisis de paquetes.

El NMS principalmente desempeña un papel en la fase de monitorización/alerta, monitoriza los routers y servidores de la empresa y pregunta si están trabajando y respondiendo como se espera. Sin embargo, los NMS son tan difíciles de configurar que solo permiten gestionar dispositivos hasta el nivel 3; es decir, no se monitorizan switches al nivel 2. Se agregan los datos de sondeo a lo largo de varios minutos, con lo que se oculta el impacto de los picos de utilización. Además, como la NMS tienen una ubicación central, las mediciones que se realizan con el propósito de comprender los tiempos de respuesta para el usuario final resultan imprecisas, dado que la comprobación se realiza usando una parte diferente de la red para llegar al dispositivo investigado.

Conforme un ingeniero de redes avanza a través del proceso de resolución de problemas, la utilidad del NMS disminuye y no proporciona la información detallada necesaria para investigar problemas de rendimiento completamente.


En una reciente encuesta de NETSCOUT® de aproximadamente 3.000 profesionales de redes, el 82% de respuestas priorizaron el rendimiento de la red y de aplicaciones como una preocupación o problema crítico, y el 52% dijeron que un NMS no tiene capacidades suficientes para identificar la raíz del problema la mayoría o todas las veces. 51% de los encuestados dijeron que tenían que dejar su escritorio un poco o la mayor parte del tiempo para resolver el problema.

Para obtener información detallada, el ingeniero necesita recurrir a freeware o herramientas de captura y análisis de paquetes comerciales. Éstos tienen una función limitada en la etapa de alerta ya que solo ven punto en la red, pero demuestran su validez en la etapa de análisis de la raíz del problema. La complejidad de las herramientas de análisis de paquetes requiere de ingenieros cualificados y con experiencia. Además, consumen mucho tiempo, dado que los resultados pueden arrojar demasiados datos; millones de paquetes que hay que examinar, mostrados a través de distintas interfaces de usuario. Esto hace que el proceso de resolución de problemas sea mucho más difícil y lento.


Donde se pueden ocultar los problemas en la red


La brecha entre estas herramientas, un NMS sin amplia información y herramientas de captura de paquetes complejas, aumenta MTTR. Los problemas persistentes e intermitentes pueden ocultarse en la red, reduciendo la productividad y la credibilidad del departamento de TI.

Para investigar y resolver los problemas de rendimiento rápidamente, el ingeniero necesita visibilidad de extremo a extremo a través de la red: una solución dedicada para el análisis automatizado de redes y aplicaciones que llena el vacío entre NMS tradicional y captura de paquetes.

Las necesidades para abordar:
  • Equipo no gestionado, que puedo haberse comprado porque es menos costoso, pero costará más resolver problemas que se presenten, ya que no hay ninguna visibilidad del estado de cada segmento de redes y los niveles de utilización no se pueden monitorizar. En cambio, con un switch gestionado un ingeniero de redes puede ir a cualquier puerto del switch y ver los errores, ver la utilización y ver quién está conectado a dicho puerto.
  • Redes indocumentadas, un problema continuo, dado los cambios frecuentes en una red hacen cualquier documentación desactualizada poco después de la terminación. Físicamente tratando de rastrear la ruta de acceso tardaría mucho tiempo, pero sin documentación precisa el ingeniero no conoce el destino de los paquetes. Lo que se necesita es un medio de descubrir la ruta de acceso en tiempo real a través de la red.
  • Demasiados datos, cuando el problema reside en pocos paquetes. Resolver problemas sería mucho más rápido con un método automatizado para tamizar a través de los paquetes capturados para encontrar los defectuosos, un análisis centrado en la aplicación que toma un enfoque descendente.
  • Los problemas en el pasado, que solo llegan a la atención del ingeniero horas después de haber ocurrido. Lo que se necesita es un medio de volver al pasado mediante la captura y análisis de grandes cantidades de datos granulares durante un período prolongado de tiempo, por ejemplo 24 horas, para recoger problemas intermitentes.
  • La nueva tecnología que todavía no se monitoriza, como 10 Gb Ethernet o 802.11n Wi-Fi. Varias organizaciones no han invertido en la instrumentación de estas tecnologías porque creen que el incremento sustancial de la capacidad superará cualquier problema.
  • Dispositivos inalámbricos: el ingeniero necesita una forma de identificar y monitorizar los dispositivos Wi-Fi, incluyendo BYOD, e identificar interferencias Wi-Fi de los dispositivos de Bluetooth, teléfonos inalámbricos, microondas etc. mediante análisis de espectro.
  • Problemas que residen fuera de la red, para que el ingeniero pueda identificarlas y otorgar la evidencia del problema de rendimiento a otros equipos de TI o proveedores de servicios externos, con información suficiente para permitir más investigación y una solución rápida.

Un nuevo enfoque para resolver problemas

Lo que se necesita es una solución holística de rendimiento de redes y aplicaciones que captura todos los datos en la red y proporciona un análisis inteligente para permitirles a los ingenieros poder aislar la raíz del problema más rápidamente, o identificar si el problema real se encuentra fuera de la red. Debe recopilar, agregar, relacionar y mediar toda la información, incluidos los datos de flujo y SNMP e información recopilada de otros dispositivos, con una granularidad de hasta un milisegundo. Los datos se deben mostrar a través de un cuadro de mandos configurable de un solo usuario, para que los flujos de trabajo guiados puedan aplicarse para aislar la raíz del problema rápidamente. Al eliminar la necesidad de hacer suposiciones y permitiendo al usuario seguir un proceso lógico hasta que el problema sea identificado y resuelto, el MTTR se reduce y el ingeniero de redes llega a ser más eficaz.

Una solución de rendimiento de redes y aplicaciones facilita todas las etapas del proceso de resolución de problemas y proporciona la visibilidad necesaria para apoyar la optimización de la red.


PASO UNO: MONITORIZAR/ALERTAR

El primer requisito al abordar y resolver problemas de redes es un sistema que proporciona una alerta oportuna que ha ocurrido un problema. El peor escenario posible es descubrir el problema por una llamada de un usuario, una situación donde el ingeniero comienza a la defensiva. Varias las alertas de herramientas de gestión de la red deben configurarse de forma manual. Es decir, debe configurarse el sistema para que detecte o haga ping a todos los dispositivos de cada dominio de difusión. Sin embargo, con una solución de rendimiento de redes y aplicaciones siempre activa, el descubrimiento automatizado y los flujos de trabajo guiados facilitan y aceleran poder ver cuales están conectados. Esto reduce considerablemente el tiempo necesario del establecimiento y la monitorización.

Los datos de rendimiento se recopilan y se almacenan continuamente en una base de datos y se muestran a través de una interfaz gráfica en un cuadro de mandos de rendimiento, el cual el usuario puede configurar para adaptarse a sus propios requisitos. El rendimiento se monitoriza en función de una línea de base definida por el usuario (por ejemplo, el SLA) y cualquier cosa fuera de esto se muestra inmediatamente como una alarma. Entonces, el usuario puede ver el problema en distintos grados de detalle ya que comienzan la etapa de investigación.

Los sistemas de rendimiento de redes y aplicaciones también se pueden integrar con los sistemas de gestión de redes existentes como HP OpenView o Tivoli Netcool, y transmitir información y alarmas a la gestión de servicios y a las soluciones del cuadro de mandos.


SEGUNDO PASO: INVESTIGAR

El ingeniero de redes ahora debe investigar el alcance del problema. Para facilitar la investigación rápida y precisa, la solución debe poder recoger y almacenar todos los datos pertinentes, por ejemplo, SNMP, flujos de paquetes, tiempo de respuesta del usuario final etc. y almacenar éstos para futuros análisis. Una solución de rendimiento de redes y aplicaciones también proporciona un método en tiempo real de descubrir la ruta de acceso del cliente al servicio o aplicación, reduciendo significativamente la cantidad de tiempo necesaria; el camino entre los dos dispositivos se puede encontrar y se puede monitorizar para cualquier problema a través de las redes internas y externas y los dispositivos en la ruta. Los resultados se muestran en un formato gráfico para facilitar la comprensión y el análisis de la raíz del problema rápidamente.

Para eficacia óptima el sistema debe proporcionar interfaces con conexiones de 1 Gbps y 10 Gbps y ser capaz de capturar datos en velocidad de línea con cables. Algunas soluciones pueden trazar un camino a través de la red desde un cliente hasta un servidor que identifica dispositivos de nivel 2 y 3 en el camino de acceso y proporcionar la granularidad necesaria para identificar la fuente del problema.

Si el problema se encuentra con un cliente o grupo de clientes, el ingeniero debe llevar a cabo una comprobación de respuesta de rendimiento o aplicación para identificar si el problema es un problema de red cableada o inalámbrica. Proporcionando herramientas integradas inalámbricas y por cable con el mismo interfaz de usuario, la red y la aplicación de usuario permiten una sola comprobación para identificar la fuente del problema.

El malware también puede identificarse como parte de este proceso, que incluye la dirección IP de origen, lo que le permite al ingeniero identificar la raíz del problema de tiempo de inactividad que se les pasa a otras herramientas.


PASO TRES: AISLAR

En esta etapa el problema ha sido aislado a un solo segmento de red, switch, router, servidor o aplicación y la ruta, los dispositivos y puertos en la ruta han sido identificados. Ahora el camino necesita analizarse y requiere de estadísticas de tráfico para cada enlace para determinar si el problema es debido a un dispositivo defectuoso, medios de vinculación, ruido o interferencia o sobrecarga de tráfico.

Una de las grandes ventajas de SNMP (Simple Network Management Protocol) es su capacidad de ayudar a aislar dominios de errores. Usar SNMP para cada punto de conexión en el camino de la consulta determinará si un cuello de botella de tráfico es la fuente de la desaceleración. Esto es sencillo si los dispositivos en la ruta se gestionan y el ingeniero tiene las contraseñas o cadenas de comunidad para interrogar los dispositivos. De lo contrario él o ella tienen que conectar una herramienta en cada enlace sin interrumpir la red para ver los paquetes y las estadísticas de tráfico. Esto puede ser una gran pérdida de tiempo si hay varios enlaces sobre un área geográfica grande y puede requerir de varias herramientas en diferentes lugares.

Una revisión del estado de la infraestructura de redes automatizada mediante una herramienta de rendimiento de redes aplicaciones permite monitorizar todos los dispositivos compatibles con SNMP, observando los flujos de aplicaciones para aquellos que muestran pérdida de paquetes o alta utilización consultando las MIB de SNMP en los routers e informando a intervalos regulares. Ya sea si existen decenas o cientos de switches en la red, el proceso es sencillo y rápido.

Algunos problemas solo serán visibles al estar en el punto donde ha surgido el problema. Esto requiere un dispositivo portátil con las capacidades de comprobación correctas y la interfaz adecuada para conectarse al punto del problema, ya sea frente a un cliente o un enlace de 10 G en un centro de datos. Ya que varias personas trabajan de forma remota, contar con una herramienta que da esta visibilidad es vital, y esto solo aumentará en importancia con el crecimiento de BYOD.

Una herramienta portátil también puede enviarse a un sitio remoto para ver lo que está sucediendo con el equipo no gestionado en la red sin la necesidad de un ingeniero acompañante. Idealmente debe poder realizar un análisis de trayectoria, medir el estado de la infraestructura de aplicaciones y flujos de aplicaciones y analizar el rendimiento de la WLAN, así como revisar la itinerancia y la capacidad de reintento e investigar cualquier interferencia desde dispositivos externos.

Si no hay enlaces que estén sobre-suscritos o tienen errores de tramos entonces es probable que la red no sea el problema, pero esto solo puede confirmar si el ingeniero ha analizado los enlaces en un tiempo razonable y el problema que él o ella está tratando de arreglar todavía existe. Esto requiere que los datos históricos se capturen por el sistema de rendimiento de red y aplicación.


PASO CUATRO: ANÁLISIS DE LA RAÍZ DEL PROBLEMA Y RESOLUCIÓN DEL PROBLEMA

En esta etapa el ingeniero confirmará la causa del problema, formulará y aplicará un arreglo y validará la solución. Si el problema no está ubicado en la red y no es la respuesta del servidor o el resultado de la sobrecarga de recursos, es necesario obtener información más detallada al capturar y analizar paquetes. Es importante primero tener aislado el enlace o atender el problema entre el servidor, la red y la aplicación, ya que un análisis de paquete puede ser una gran pérdida de tiempo y requiere una cantidad considerable de habilidad y experiencia.

Para llegar a la raíz del problema más rápidamente es mejor tomar un enfoque descendente para el análisis, empezando por el nivel de la aplicación. Por ejemplo, si la ruta es buena, pero el tiempo de respuesta es pobre, el problema podría ser un servidor virtualizado, una aplicación que se ejecuta en varios niveles o un error en la aplicación.

Una opción es utilizar un analizador de paquetes que fácilmente puede mostrar el nivel de la aplicación y el paquete de diagramas de escalera. Las conexiones tap en serie o duplicadas son fáciles de configurar, pero pueden perder paquetes con cargas de tráfico pesado y no muestran errores de nivel 1 ya que estas son bloqueadas por el switch de nivel 2 proporcionando el lapso. Los tap pasivos son los mejores la conexión se pierde al conectarlos, lo que interrumpirá a los usuarios de los servicios que ofrece este enlace. Si el rendimiento está siendo afectado, esto generalmente no causa un problema, pero podría afectar aquellos que utilizan este enlace para conectarse a otros servicios.

Una mejor solución es construir la red con taps ya colocados en una posición estratégica frente a granjas de servidores, centros de datos, routers para enlaces externos y en el núcleo de la red. Esto permite que las capturas se puedan tomar sin afectar la red. Si esto no es posible, el ingeniero podría tener que recurrir a la creación de reflejos de puertos, teniendo en cuenta los problemas y errores.

Una solución de rendimiento de redes y aplicaciones proporciona un método automatizado de tamizar a través de los paquetes capturados para encontrar los malos. Utiliza un enfoque centrado en la aplicación, con una interfaz gráfica que muestra cada flujo de datos con un indicador visual para indicar problemas. El ingeniero simplemente hace clic en esto para obtener y ver exactamente qué paquete o paquetes tienen un problema. Esto puede asistido aún más al capturar paquetes en varios puntos de la infraestructura para determinar donde existe el problema. Requiere la capacidad de realizar análisis de varios segmentos, activando la captura de datos en varios puntos al mismo tiempo y combinando los resultados para proporcionar toda la imagen.

El análisis efectivo de la raíz del problema puede realizarse en el centro de datos o en sitios remotos para ver si los problemas están relacionados con el servidor o con la aplicación. Algunas herramientas pueden extraer información de gestión de servidores físicos o virtuales para revelar rendimiento y problemas de recursos.

Al recopilar y analizar datos históricos granulares, el sistema de rendimiento de redes y aplicaciones también le permite al ingeniero retroceder en el tiempo para revisar los síntomas que se produjeron cuando el problema apareció por primera vez, permitiendo que los problemas intermitentes sean identificados y resueltos.


Optimización redes

Una solución para el rendimiento de las aplicaciones y la red proporciona a los ingenieros la visibilidad que necesitan para documentar y auditar el estado de la red corporativa. Les permite detectar bajo rendimiento e identificar las rutas en las que las aplicaciones o servidores funcionan con lentitud, para así poder centrarse en las rutas más críticas y lentas. La información obtenida puede emplearse para dar prioridad a proyectos como las actualizaciones de servidores, o para aportar argumentos para su aprobación. Puede también servir de apoyo para la instalación de nuevos equipos y aplicaciones, pues permite demostrar que lo que se ha hecho hasta ahora ha funcionado y garantiza además que no ha tenido un impacto negativo en el rendimiento de cualquier otro componente. Los datos pueden también demostrar (o negar) el impacto en la red de cambios como la virtualización, la optimización de WAN o la consolidación del centro de datos.



Acerca de NETSCOUT

NETSCOUT SYSTEMS, INC. (NASDAQ: NTCT) es un líder en el mercado en soluciones de aseguramiento y seguridad cibernética de servicio en tiempo real para las redes más exigentes de proveedores de servicios, empresas y gobiernos. La Inteligencia de servicio de adaptación (Adaptive Service Intelligence, ASI) de NETSCOUT continuamente monitorea el entorno de entrega de servicio para identificar problemas de rendimiento y proporciona información sobre amenazas de seguridad basadas en redes, ayudando a los equipos a rápidamente resolver problemas que puedan causar interrupciones de negocios o afectar la experiencia del usuario. NETSCOUT ofrece una visibilidad sin igual de servicio y protege la infraestructura digital que mantiene nuestro mundo conectado.
 
 
Powered By OneLink