Documentación técnica: Solución de problemas en redes remotas: mejores prácticas | enterprise.netscout.com

Documentación técnica: Solución de problemas en redes remotas: mejores prácticas

Tanto la administración como los empleados de los sitios remotos esperan recibir el mismo nivel de servicio de red que el disponible en la sede central. No obstante, cuando el personal de TI sólo tiene acceso a recursos limitados para ocuparse de las redes en estas oficinas remotas, normalmente las aplicaciones, los servicios y el rendimiento no son tan sólidos como los de la sede central.

Vea cómo entregar un alto nivel de servicio de red en sitios remotos usando las prácticas recomendadas presentadas en este documento técnico.

  • Tabla de materias
  • Introducción
  • Prácticas recomendadas para la solución de problemas
  • Detección de redes
  • Línea de base
  • Tareas proactivas
  • Tareas reactivas
  • Tareas de ventanas de mantenimiento
  • Solución: Analizador integrado

Introducción

Las sucursales son una realidad para la mayoría de las organizaciones y mientras que los empleados remotos esperar las mismas aplicaciones de red, los servicios y rendimiento como los empleados ubicados en las sedes centrales, la mayoría de las organizaciones de TI no cuentan con los presupuestos necesarios o plantilla de personal de esos sitios locales. En muchos casos, el tamaño del sitio no justifica el personal en el sitio, pero los empleados de allí requieren el mismo nivel de servicio que sitios más grandes.

Aunque la virtualización de servidores, la consolidación y el traspaso hacia las aplicaciones con entrega por la web benefician a la empresa, la productividad óptima solo se puede conseguir cuando en los sitios remotos se dispone del mismo nivel de servicios a través de toda la empresa. Incluso la implementación mejor planificada puede dejar a las oficinas remotas y a sus usuarios vulnerables a la degradación del rendimiento y a los problemas de disponibilidad. Esto crea una serie de retos para el personal de TI de la sede central a la hora de mantener el rendimiento, la disponibilidad, la seguridad y la visibilidad de los sitios remotos.

En la sede central, cuando los usuarios de un sitio remoto se quejan del mal rendimiento o de la calidad de VoIP, el personal de TI debe poder determinar el origen del problema y corregir la situación rápidamente. Los cortes de servicio y las ralentizaciones de la red de las oficinas remotas resultan más difíciles de resolver debido a los retos inherentes a la distancia, el tiempo de desplazamiento y la necesidad de herramientas de las que podría carecerse en estas oficinas. Organizar las herramientas necesarias y enviar al personal a las ubicaciones remotas para solucionar los problemas requiere tiempo y dinero, y el tiempo de distancia contribuye a retrasos o interrupciones en otros trabajos críticos, tales como la planificación y la implementación de proyectos de TI.

¿Qué se necesita? Una estrategia, proceso y conjunto de herramientas que se extiende tanto en el sitio remoto y en el sitio de la sede central. Con las herramientas y la información adecuadas, el personal de TI puede entender y resolver los problemas de forma rápida y eficaz. Al añadir el nivel adecuado de visibilidad, es posible incluso identificar las degradaciones de la red remota antes de que den lugar a cuestiones más complicadas. Esta estrategia ofrece al personal de TI la oportunidad de tomar medidas dinámicas para eliminar la congestión, latencia y otros problemas que podrían afectar a los sitios remotos e interferir en las operaciones. Además, una visibilidad que permita resolver los problemas desde la sede central evitará la necesidad de enviar al personal y dará como resultado un ahorro de tiempo y gastos en viajes, una mayor disponibilidad de la red y más tiempo para proyectos importantes.

Prácticas recomendadas para la solución de problemas en sitios remotos

Línea de base, evaluación y documentación
Para obtener eficiencia más adelante, primero se debe tomar un paso dinámico para establecer una línea de base de la red del sitio remoto existente, para que el personal de TI sepa con que están tratando. Esto es especialmente relevante cuando las organizaciones han efectuado compras o fusiones de otras entidades en las que la configuración de los equipos y el diseño de redes es diferente a la de los equipos y al diseño de red de la sede central.

La primera tarea es un descubrimiento completo y una documentación de la red del sitio remoto. Esto no solo implica qué tipo de equipo existe, pero también identifica quiénes son los usuarios y cómo se conectan a la red. El descubrimiento debe incluir información acerca del inventario de hardware, servidores, puntos de acceso, configuraciones de los switches y los routers y de las rutas de conexión de redes. Mapas actualizados son un elemento esencial de “conocer” el sitio remoto y como referencia para cuando surjan problemas en el futuro.

El siguiente paso necesario es entender lo que niveles de tráfico “normales” existen en el sitio remoto. Esto proporciona una referencia de donde trabajar a la hora de determinar la actividad anormal y compararla a la hora de validar los problemas en el futuro. El personal de TI debe evaluar el rendimiento actual de la red, incluidos los patrones de tráfico con el uso de protocolos y aplicaciones, la utilización de banda ancha, la conectividad a Internet/WAN y por último aunque no menos importante, las posibles vulnerabilidades de la red.

Una buena práctica consiste en supervisar el tráfico dentro y fuera del sitio por un período de prueba de la actividad comercial normal. La creación de reflejo del tráfico (o SPAN) desde el puerto del router de entrada/salida a un analizador capaz de análisis de tráfico de velocidad de línea es una metodología. Otro método, que también permite la visibilidad del futuro, es la instalación de una red TAP para que los ingenieros tengan un punto rápido de acceso a tráfico de redes en el futuro.

 

Actualmente, los enlaces troncales de las conexiones de switch están ampliamente implementados y los enlaces troncales de acceso al escritorio son muy comunes, especialmente en las implementaciones de redes VoIP que admiten varios dominios de broadcast junto con tráfico etiquetado y sin etiquetar. por lo que es necesario detectar todas las VLAN de un enlace y medir la distribución del tráfico a lo largo de todas ellas. Además, la captura y documentación de las estadísticas de tráfico en una VLAN específica para permitir descubrimiento y generar y capturar tráfico sólo en la VLAN seleccionada son esenciales para identificar los protocolos, los hosts principales y las conversaciones limitadas a esa VLAN en particular.

Igual de importante es la evaluación de enlaces de proveedores de conectividad de Internet/WAN y calidad de servicio (QoS) que proporciona la última pieza de la línea de base esencial de sitios remotos. Conducir una prueba de rendimiento activa (donde el tráfico de prueba se genera desde la sede central, desde y hacia el sitio remoto) revela los niveles de pérdida de paquetes, latencia, fluctuación y la seguridad de configuraciones trabajo QoS trabajando de extremo a extremo. Los informes guardados de resultados de pruebas pueden convertirse en una medida conocida esencial desde la que degradaciones futuras se pueden comparar.

CÓMO:
Para proporcionar la información requerida, es necesario utilizar muchas funciones diferentes y, sin necesidad de herramientas especialmente diseñadas, muchos productos diferentes. En resumen, se requieren las siguientes capacidades:

  • Descubrimiento de redes: esencial para encontrar todos los dispositivos y las rutas
  • Capacidades de asignación/documentación: la automatización ahorra trabajo y evita errores
  • Sondeos SNMP a switch de línea de base y rendimiento de routers: la granularidad de los datos es esencial
  • Velocidad de cableado, la captura de paquetes de hardware y el análisis de protocolos para medir los tiempos de respuesta de las aplicaciones sin pérdida de paquetes: WireShark en las PC portátiles no es adecuado debido a las limitaciones de la velocidad de captura
  • Supervisión de tráfico para determinar qué protocolos se utilizan en la red: identifica quién está utilizando el ancho de banda y para cuales las aplicaciones
  • Medición de generación del tráfico y rendimiento: las pruebas basadas en estándares son preferibles comparados con los métodos ad hoc, o velocidades de cableado secundario como las herramientas de software gratuito proporcionadas, tales como iPerf

 


Siguientes pasos

Los profesionales de redes responsables de los sitios remotos deben considerar varias tareas para ocuparse de cada sitio.

Generalmente, éstas pueden dividirse en las siguientes:

  • Tareas proactivas
  • Tareas reactivas
  • Tareas de ventanas de mantenimiento

 

Tareas dinámicas
Una vez que estén disponibles los diagramas de configuración de redes actualizados y que los niveles de tráfico y el rendimiento se hayan establecido con línea de base, será necesario avisar de forma automática al personal de la sede central cuando los niveles generales de tráfico o el tráfico de un puerto de un switch crítico hayan superado los valores “normales”. Muchas herramientas de gestión (Sistemas de gestión de redes o NMS) pueden supervisar los puertos de switch individuales y el tráfico de interfaz de WAN, además de proporcionar un método para determinar cuándo se superan ciertos umbrales de tráfico específicos en dichas interfaces, ya sea por índices de error o de utilización. De esta forma, se alertará al personal de TI de posibles degradaciones en la red antes de que se conviertan en problemas significativos en el sitio remoto. Sin embargo, debido a su objetivo principal de proporcionar supervisión y tendencias a largo plazo, la mayoría de los sistemas de gestión toman muestras que son demasiado gruesas para la solución de problemas efectiva. Al tratar de determinar la presencia de eventos de ancho de banda intermitentes, un analizador con velocidades de muestreo granulares es esencial para la detección y el aislamiento del problema. Además, los problemas que parecen de menor envergadura, como las máscaras de subred incorrectas, las direcciones IP duplicadas, etc. también deberían comunicarse.

También es necesario monitorizar los protocolos en uso, algo especialmente importante para el tráfico que cruza el enlace WAN. ¿Están consumiendo los usuarios el valioso ancho de banda de Internet/WAN para aplicaciones no relacionadas con el negocio? Datos basados en flujos (NetFlow, sFlow, jFlow, IPFIX) se pueden utilizar para supervisar el uso de ancho de banda por aplicación y usuario. Tenga en cuenta, sin embargo, que los datos basados ​​en el flujo es otra medida de USO, no contiene datos relativos al RENDIMIENTO: la velocidad de las transacciones.

Puntos de acceso inalámbricos maliciosos, no protegidos y no autorizados: ¿cómo se detectan si no hay personal de TI que pueda recorrer el sitio remoto con un analizador de redes inalámbrico para buscar dichas vulnerabilidades? Sensores de supervisión se pueden implementar para vigilar dispositivos maliciosos, así como supervisar el rendimiento del WLAN del sitio remoto, pero esto es donde el descubrimiento en profundidad de la parte cableada de la red llega a ser importante, NMS no solo tiene la necesidad de descubrir direcciones IP, pero también necesita descubrir las direcciones MAC asociadas y decodificar el prefijo de los fabricantes. A continuación, mediante una clasificación de la base de datos de descubrimiento por dirección MAC, resulta fácil explorar la lista y buscar prefijos MAC que normalmente no forman parte de la red; si se detecta un prefijo MAC sospechoso, el personal de TI debe saber qué dispositivo está conectado a la red (interfaz del switch) para poder apagar el puerto de forma remota.

Tareas reactivas
Cuando los usuarios remotos se quejan de una “red lenta”, el personal de TI debe seguir un proceso consistentes y tener acceso a los datos necesarios para identificar el dominio del problema para identificar y probar quién o qué tiene la culpa. El personal de TI debe identificar el ámbito del problema más probable, ya sea la red, la aplicación, el servidor o el cliente y, posteriormente, comunicar los problemas con seguridad proporcionando los suficientes datos para evitar el cruce de acusaciones y de dirigir el problema a la organización de TI responsable, pero no necesariamente de solucionar un problema en una aplicación.

 

Primer paso: probar la conectividad y tiempos de respuesta (y el problema con Ping)
Para la mayoría de los profesionales de redes, el primer paso en solucionar un problema es hacer un Ping a sitio remoto, ya sea la máquina del usuario que se queja, un servidor local u otro dispositivo “encendido” confiable, siempre y cuando ese ICMP (la capa 3 del protocolo usado por Ping) no esté bloqueado. Si el ping ha funcionado en el pasado pero ya no, entonces se requiere un examen del estado de los puertos a lo largo de la ruta. Ante la falta de puertos o enlaces “abajo”, un Ping incorrecto significa realizar una solución de problemas desde el fondo de la pila hacia arriba. Desafortunadamente, los problemas de conectividad física pueden requerir que el personal viaje al sitio para solucionar problemas, pero no dependen de Ping únicamente para hacer esa determinación, ya que puede ser bloqueado.

Un ping satisfactorio al menos asegura conectividad física y puede dar una estimación inexacta del tiempo de ida y vuelta de la red. Pero hacer Ping no es un método de medición confiable para determinar la pérdida de paquetes, y siendo simétrico por naturaleza, no proporciona información para determinar problemas de enlace asimétrico. Además, ninguna aplicación de usuario utiliza ICMP, así que si los protocolos utilizados por una aplicación particular pueden atravesar la red y la velocidad a la que lo hacen, se debe medir de una manera diferente, tal como “abrir un puerto”. Iniciando las “tres vías” de SYN/SYN-ACK/ACK de un puerto TCP proporciona una prueba más confiable de conectividad de la capa 3 Incluso mejor que un puerto de conexión (que valida la conectividad de red y los tiempos de respuesta de la red), el conducir y medir una transacción de aplicación proporciona un método más confiable de conectividad de aplicaciones y los tiempos de respuesta. Algunas herramientas pueden dirigirse a un servidor Web local o remoto y ejecutar y medir un comando GET de HTTP como una forma de medir el rendimiento de una aplicación basada en la web, por ejemplo.

Tenga en cuenta que la realización de estas pruebas desde la sede central hasta el sitio remoto puede proporcionar resultados diferentes a las experimentados desde el sitio remoto.

Segundo paso: analizar el uso de la red
Es muy común que las ralentizaciones de rendimiento sean causadas ​​por un exceso de utilización de ancho de banda de redes. Mientras que la mayoría de las conexiones LAN exceden el ancho de banda WAN o de Internet disponible por algún múltiplo, no es imposible que una conexión LAN local pueda sobrecargarse, sobre todo si las configuraciones no están logrando la capacidad de transmisión máxima. Muchos ingenieros de redes se han sorprendido de encontrar enlaces de 10 Mbps de mitad duplex en operación donde se esperaban 100Mbps de duplex completo of de Gig. Los datos SNMP o basados ​​en el flujo se pueden examinar para determinar la utilización de la interfaz. La medición granular puede indicar cuando los picos de uso están ocurriendo, con los datos de flujo proporcionando evidencia de quién está haciendo qué.

Tercer paso: comprobación de la calidad de redes
Una metodología única para comprobar el ancho de banda disponible es conducir una prueba de rendimiento desde la sede central hasta el sitio remoto. Los agentes de software están disponibles y se pueden implementar en equipos remotos y ser el objeto de un analizador en. “Agregando” una corriente de tráfico de comprobación hacia/desde el sitio remoto proporciona información instantánea sobre la calidad de la transmisión de paquetes, así revelando problemas con latencia, pérdida y fluctuación que podrían afectar el rendimiento de la aplicación.

Cuarto paso: análisis de paquetes
Aún desde la sede central, el ingeniero de redes puede colocar su analizador en línea con la alimentación de tráfico desde el sitio remoto (ya sea usando un analizador capaz de análisis en línea, o a través de un puerto SPAN o un tap de red). Tenga en cuenta que las herramientas basadas en hardware son esenciales para el análisis de cero pérdidas de paquetes. La peor pérdida de tiempo de un ingeniero sería solo capturar partes del tráfico hacia/desde el sitio remoto y (en el mejor caso) tratar de adivinar o, peor aún, solucionar los “paquetes perdidos” cuando la pérdida fue en realidad causada por el mismo analizador.

Con los archivos de captura de tráfico hacia/desde el sitio remoto, el ingeniero puede examinar los tiempos delta entre tramas y distinguir entre el tiempo de transferencia de la red y el tiempo de respuesta del cliente, así validando si realmente existe un problema con el rendimiento hacia el sitio remoto o si el problema es con el cliente o por parte de la sede central.


Analizador en el sitio remoto

A pesar de estos esfuerzos, y como ya se ha señalado, realizar pruebas desde la sede central solo puede llegar hasta cierto punto y solo está proporcionando información de comprobación desde el punto de vista de la sede central. En algún momento, las mediciones se deben tomar desde el sitio remoto, desde el punto de vista de los usuarios afectados. Mientras que el escritorio remoto (RDP) se puede utilizar para tomar el control de un equipo remoto y para conducir diversas pruebas de línea de comando (tales como Ping o tracert) éstos tienen sus limitaciones como ya se ha establecido. La situación ideal es disponer de un analizador de redes dedicado en el sitio para las comprobaciones locales (o, enviar dicho analizador al sitio), pero controlar ese analizador de forma remota desde la sede central, así eliminando la necesidad de viajar al sitio.

Clave para el rendimiento de las aplicaciones remotas de usuarios y para ayudar a identificar el dominio del problema, debe proporcionarse una prueba de servicio de red para asegurar que los servicios de red esenciales estén disponibles y funcionen correctamente. Estos servicios mínimos serían DHCP, DNS y autenticación 802.1x. (si se utiliza). El efecto de DNS en el rendimiento de aplicaciones no se puede exagerar. En lugar de simplemente utilizar RDP en una PC del cliente y conducir una búsqueda de CLI DNS, la capacidad de comprobar de forma simultánea múltiples direcciones de servidores DNS es necesario para realizar ambas pruebas de resolución de dirección a nombre y nombre a dirección especialmente cuando las aplicaciones se alojan en varios servidores en la sede central que utilizan servicios de DNS “turnos rotativos” para balancear la carga y las búsquedas.

Una vez validados los servicios básicos y la conectividad de las aplicaciones, el analizador debe ser capaz de proporcionar un análisis detallado en el sitio remoto para identificar la raíz del problema. Algunos problemas encontrados en los sitios remotos también pueden ser intermitentes, y recrearlos es cada día más complicado y, en algunos casos, imposible: si no se puede reproducir el problema, ¿sería seguro afirmar que todo es correcto? Desgraciadamente, no: suele ser difícil determinar qué sucede en el cable a la velocidad de la línea cuando se reciben mensajes de errores de aplicaciones. Por tanto, es necesario proporcionar una capacidad más relevante para capturar tráfico y analizar los datos cuando se dispone de tiempo, no necesariamente cuando se producen los problemas. Para solventar estas cuestiones y acelerar la solución de problemas, los activadores que detienen o inician la captura cuando se detecta un evento ahorran tiempo y ofrecen más flexibilidad gracias a:

  • Monitorización automática: captura el tráfico siempre que se produce un evento
  • Minimización del número de capturas necesario garantizando que el evento se captura la primera vez y evitando las capturas aleatorias de tráfico que es posible que no contengan nada de interés
  • Analizar el tráfico capturado cuando se dispone de tiempo, no necesariamente cuando se ha producido el evento
  • Captura del tráfico antes, durante o después del evento, y sólo la cantidad pertinente, utilizando filtros para limitar la cantidad de tráfico capturado y evitar la revisión innecesaria de megabytes de tráfico.

 

Ventana de mantenimiento
Durante los tiempos de mantenimiento de redes, asegúrese de que los enlaces de Internet/WAN a los sitios remotos puedan cumplir con el ancho de banda asignado y proporcionar calidad de transmisión de tráfico de aplicaciones. Para efectuar esta tarea, se debe realizar una prueba de rendimiento de redes (NPT) entre el analizador en el sitio remoto y un analizador similar en la sede central. La prueba debe realizarse a varias velocidades de tráfico y con diferentes tamaños de trama para determinar si el enlace WAN es capaz de gestionar el tráfico, la pérdida de paquetes y, lo que es más importante, en qué dirección se están perdiendo los paquetes. Si hay paquetes interrumpidos o el enlace no va a admitir la velocidad de datos anunciada, el analizador debe disponer de funciones para diagnosticar el origen del problema.

Pero la comprobación para la capacidad de transmisión y la pérdida es solamente una dimensión de la calidad de la red. La latencia y la fluctuación se deben medir, y la fluctuación debe medirse de forma asimétrica si uno ha de conocer su impacto en las aplicaciones de transmisión y la calidad de VoIP. También QoS debe ser comprobado al pasar el tráfico en varias configuraciones de QoS para asegurar la priorización del tráfico adecuada y evitar el descarte inadecuado o el límite de tráfico de aplicaciones.

Dónde iniciar

Como con cualquier mejor práctica, solo son efectivas si se implementan y se practican rutinariamente. El primer paso es evaluar los procesos, prioridades y necesidades actuales. Además, es importante entender qué herramientas están bien adaptadas para lograr correctamente las ventajas de adoptar estas mejores prácticas. Mientras que hay herramientas en el mercado que puede ayudar con algunas de estas prácticas, solo existe una herramienta que entrega asistencia funcional completa para todas estas mejores prácticas. La Tableta de Análisis de Red OptiView® XG de NetScout está diseñada para abordar incluso los desafíos de resolución de problemas más complejos en los entornos de redes distribuidas de hoy de manera rápida y eficiente.


Cómo OptiView XG Network Analysis Tablet facilita el manejo de sitios remotos

Todas las funciones de varias herramientas se reúnen en un mismo dispositivo, lo que facilita y acelera las tareas de gestión y solución de problemas, puesto que los ingenieros ya no tienen que cambiar de herramienta para realizar las distintas comprobaciones necesarias. Además, los profesionales de la red pueden realizar todas las pruebas necesarias en el sitio remoto sin abandonar la sede central. Con solo conectar el analizador OptiView a la red en el sitio remoto, se obtendrá una visibilidad de 24/7; algo parecido a tener un “ingeniero virtual de redes”. Puede ver los datos más de una persona, con el analizador OptiView, los profesionales de redes también pueden trabajar cuando algunos miembros del personal se encuentran fuera del sitio porque los datos pueden compartirse ejecutando varias interfaces de usuario simultáneamente para un análisis y una colaboración asistidos durante la implementación.

El analizador OptiView proporciona información acerca de la detección en la red y de problemas de dispositivo, e identifica protocolos en segundos. También agiliza la creación de informes para disponer de documentación completa sobre la infraestructura de red. Con OptiView, los profesionales de la red pueden hacer un inventario completo de todos los dispositivos de la red, saber dónde están conectados y a qué servicios se están destinando. Puede realizar asignación automatizada, creando mapas de la red en su estado actual y exportar esos datos a Microsoft® Visio, así que los profesionales de la red obtienen los datos en un formato familiar que puede ser fácilmente utilizada para solucionar problemas de un sitio remoto. Al utilizar el analizador OptiView, los profesionales de la red pueden verificar y probar la preparación de la red para ampliaciones, fusiones, consolidaciones y actualizaciones. Así, pueden validar y documentar el rendimiento, además de verificar las nuevas configuraciones para garantizar la estabilidad de la red. Por otra parte, pueden emplear el analizador OptiView para identificar las configuraciones de redes VLAN, validar el estado de la red y comprobar la configuración y el rendimiento de los switches y los routers.

La ventaja corporativa

La solución de problemas efectiva no solo reduce el tiempo y los gastos de viaje, pero se si se realiza correctamente, puede ayudar a evitar o a reducir gastos de hardware adicionales, comprar un exceso de capacidad de WAN, inversión no necesaria en la solución de problemas externas o tener problemas persistentes que absorben tiempo y dinero de TI y el negocio entero.

 

Razones para la adquisición de un analizador de redes integrado

OptiView XG Network Analysis Tablet ayuda a los profesionales de las redes a gestionar los proyectos de TI, a resolver los problemas de redes y a dar asistencia a las iniciativas de TI. De esta forma, se reducen los costes de TI y se mejora la satisfacción de los usuarios. Proporciona una visión clara de la infraestructura de la red de toda la empresa: todos los componentes de hardware, todas las aplicaciones y todas las conexiones. Ninguna otra herramienta portátil ofrece la amplia visión ni las prestaciones "todo en uno" que le ayudan a:

  • Implementar nuevas tecnologías y aplicaciones
  • Gestionar y validar cambios de infraestructura
  • Solucionar problemas de rendimiento de red y aplicaciones
  • Proteger la red de amenazas internas
El analizador OptiView muestra las prestaciones actuales de su red y ayuda a evaluar si está preparada para los cambios, presentes y futuros, que se desean llevar a cabo. Saque el máximo partido de las nuevas funciones de OptiView, que le otorgan visión y control sobre la red. Para obtener más información, visite www.enterprise.netscout.com

 

 
 
Powered By OneLink