Una falla global en la nube de Amazon genera problemas a cientos de aplicaciones de empresas como Snapchat, Zoom y varios bancos

MUNDOAGENCIA INTERNACIONAL DE NOTICIASAGENCIA INTERNACIONAL DE NOTICIAS
adf92a90-adbc-11f0-a1e9-05271081384a.jpg

Muchos de los sitios web y aplicaciones más grandes del mundo han experimentado problemas este lunes debido a una interrupción que afectó a Amazon Web Services.

La interrupción intermitente del servicio afectó a importantes redes sociales como Snapchat y Reddit, plataformas como Duolingo y Zoom, bancos como Lloyds y Halifax, juegos como Roblox y Fortnite, y servicios de transferencia de dinero.

Amazon Web Services, la división de computación en la nube de Amazon que provee la infraestructura de millones de sitios web y aplicaciones, afirmó que aún persisten "errores significativos" de recuperación en algunos servicios, pero aseguró que el problema subyacente se solucionó.

Pese a los avances en la resolución del problema, seguirán surgiendo inconvenientes mientras todos los procesos retoman su velocidad normal, agregó.

Las demoras en la reanudación de los servicios, señaló la empresa, están relacionadas con la gran cantidad de solicitudes realizadas por los afectados que ahora deben ser procesadas.

Para entender mejor este proceso, imagina a muchas personas intentando enviar mensajes y que, de repente, se envían todos a la vez. Eso provoca un retraso mientras el sistema los procesa todos.

Amazon también informó que hay un problema con el lanzamiento de lo que denomina "nuevas instancias EC2". Se trata de computadoras virtuales alojadas en los servidores de la empresa tecnológica, con su propio espacio de disco duro y sistemas operativos.

Previamente, Downdetector —la plataforma que monitorea interrupciones y que es propiedad de Ookla— informó haber recibido más de 6,5 millones de denuncias a nivel mundial, que han afectado los servicios de más de 1.000 empresas.

El problema comenzó en Estados Unidos, en el corazón de las operaciones de computación en la nube de Amazon, en Virginia del Norte.

En las últimas horas, los usuarios estadounidenses están reportando problemas con diversos sitios web, así como dificultades para enviar y recibir pagos en la plataforma Venmo.

Coinbase, la mayor plataforma de intercambio de criptomonedas de EE. UU., también ha experimentado problemas con sus servicios, así como la aplicación de inversiones Robinhood

Varios medios de comunicación también se vieron afectados por la interrupción, entre ellos The Wall Street Journal y The New York Times.

Amazon Web Services es un gigante estadounidense con una amplia presencia global, que se ha posicionado como la columna vertebral de internet.

Proporciona herramientas y computadoras que permiten el funcionamiento de aproximadamente un tercio de internet, ofrece espacio de almacenamiento y gestión de bases de datos, evita que las empresas tengan que mantener sus propias y costosas configuraciones y, además, conecta el tráfico a esas plataformas.

Si bien la interrupción parece estar en vías de resolverse, los expertos afirman que su escala e impacto han puesto de relieve el riesgo de que muchas empresas dependan en gran medida de un único proveedor dominante para su infraestructura vital.

La fragilidad de internet
Con un tercio de internet dependiendo de Amazon Web Services, es fácil ver cómo incluso un pequeño error puede tener un impacto tan drástico en aplicaciones y sitios web de todo el mundo, comenta Shiona McCallum, periodista de tecnología de la BBC.

Y como gran parte de nuestras vidas transcurren en línea, agrega, "la presión sobre los servicios en la nube no hace más que aumentar".

"La relativa frecuencia de estos eventos pone de relieve la fragilidad de estos sistemas", afirma McCallum.

Sin duda, en los próximos días y semanas surgirán nuevas dudas sobre la resiliencia y el fortalecimiento de estos sistemas.

Pero, ¿qué otra opción les queda a las empresas más que confiar en estos gigantes tecnológicos cuando dominan los mercados con tanta fuerza?

Los expertos intentan encontrar respuestas más allá de la causa específica de la falla ocurrida este lunes, dado el poder que manejan pocas empresas y la influencia que pueden tener en la vida de empresas y personas.

Algunos usuarios compartieron sus experiencias con la BBC.

Tonia, de North Ayrshire en Reino Unido, comentó que pasó unos momentos difíciles debido a los problemas para enviar y recibir dinero a través de transferencias bancarias.

"¡Qué molestia! Tenemos un bebé que necesita leche de fórmula", dijo preocupada porque durante unas horas no podía retirar el dinero necesario para ir a comprar al supermercado.

Los usuarios que utilizan el servicio de transporte compartido Lyft también experimentaron problemas.

"Intenté conseguir un auto esta mañana pero la aplicación no detectaba ningún coche", dijo Sakshi Venkatraman, quien en ese momento se encontraba en Texas, EE.UU.

"A pesar de haber programado mi viaje la noche anterior, la aplicación me retrasó casi una hora, mostrando un mapa extrañamente vacío".

Algunos se preguntan si podrán recuperar de alguna manera las pérdidas monetarias provocadas por la interrupción del servicio emprendiendo acciones legales.

Henna Elahi, asociada senior de la empresa Grosvenor Law en Londres, explicó que la posibilidad de recuperar el dinero dependerá de varios factores, como los contratos entre las partes y la gravedad de la interrupción.

Por ejemplo, las aplicaciones bancarias se encuentran entre las que registraron miles de reportes de usuarios frustrados.

Si no pudieron realizarse pagos, "esto podría muy bien generar quejas de los clientes e intentos de recuperar cualquier pérdida causada por la interrupción", explicó Elahi.

Por otro lado, la empresa Amazon, la plataforma de comercio electrónico, también fue víctima de la interrupción de sus servicios web.

Clientes que intentaron comprar productos en la plataforma en las primeras horas del lunes, no pudieron concretar su compra tras recibir un mensaje que les comunicaba "algo salió mal", a menudo acompañado de la foto de un perrito.

También existieron algunos problemas con los productos Alexa de Amazon.

Aunque aparentemente lo peor ya se ha resuelto, una nueva serie de "fallos en cascada" parece haber surgido durante la tarde (hora local de EE.UU.), según Mike Chapple, profesor de tecnología de la información en la Universidad de Notre Dame.

"Es como cuando hay un apagón a gran escala", dijo Chapple. "Los equipos empiezan a trabajar para intentar restablecer el servicio. La electricidad puede fallar algunas veces", pero es posible que "solo hayan abordado los síntomas" y no la causa raíz.

Qué se sabe de la falla
Lo que se sabe hasta ahora es que hubo una interrupción común conocida como error del Sistema de Nombres de Dominio (DNS, por sus siglas en inglés).

Cuando alguien accede a una aplicación o hace clic en un enlace, su dispositivo básicamente envía una solicitud para conectarse a ese servicio.

Se supone que el DNS funciona como un mapa, pero este lunes Amazon Web Services perdió su rumbo.

El problema es que el sistema no podía ver dónde estaban plataformas como Snapchat, Canva y HMRC para dirigir el tráfico hacia ellas, explica Zoe Kleinman, editora de tecnología de BBC News.

Cuando ocurren estas situaciones, generalmente está relacionado con un problema de mantenimiento o un fallo del servidor.

A veces se trata de un error humano, de una mala configuración de algún componente o, en casos extremos, de un ciberataque, aunque hasta el momento no hay pruebas de ello.

Diversos expertos han afirmado que esta falla es un ejemplo clásico de los riesgos de apostar todo a una sola carta en lo que respecta a un proveedor de servicios: la firma es un gigante y millones de empresas dependen de él.

"Y tienen razón, pero el problema es que no hay muchas alternativas a la escala que ofrece la firma", dice Kleinman.

De hecho, solo hay dos contendientes principales, y ambos son gigantes estadounidenses: Azure, de Microsoft, y Cloud Platform, de Google.

Otra manera de mirar la importante función que cumple el DNS, que significa Sistema de Nombres de Dominio (DNS, por sus siglas en inglés: Domain Name System), es compararlo con una guía telefónica de internet.

Liv McMahon, reportera de tecnología de la BBC, explica que ese sistema convierte eficazmente los nombres de los sitios web que usan los usuarios en equivalentes numéricos de direcciones IP que las computadoras pueden leer y comprender.

Este proceso sustenta básicamente la forma en que usamos internet, y las interrupciones pueden impedir que los navegadores web encuentren el contenido que buscan.

Pero las interrupciones no son algo nuevo.

"En los últimos cinco años se han producido varias interrupciones masivas del servicio de internet, donde los problemas con una sola empresa han tenido enormes repercusiones", señala Joe Tidy, periodista de tecnología de la BBC.

"La mayoría de las veces, estos problemas se resuelven en cuestión de horas, mientras los ingenieros se esfuerzan por revertir errores o solucionar problemas sobre la marcha".

El reportero explica que los expertos llevan mucho tiempo señalando la creciente dependencia de un pequeño número de gigantes de internet como un factor, "ya que se ponen más huevos en menos canastas: cuando una gran empresa tiene un fallo, gran parte de la vida moderna y los negocios se paralizan".

¿De quién es la responsabilidad?
Amazon Web Services afirma que los problemas subyacentes que causaron la interrupción de hoy se han solucionado. "Ahora empieza la búsqueda de culpables", dice Lily Jamali, corresponsal de tecnología en Estados Unidos de la BBC.

Un experto en informática dice que parte de la responsabilidad recae en las compañías que utilizan Amazon Web Services.

"Las empresas que utilizan Amazon no han tomado las precauciones necesarias para integrar sistemas de protección en sus aplicaciones", afirma Ken Birman, profesor de informática en la Universidad de Cornell en Nueva York.

Interrupciones como la del lunes ocurren con frecuencia, aunque no siempre a esta escala.

Birman argumenta que los desarrolladores de aplicaciones deberían invertir en copias de seguridad de las aplicaciones críticas que se encuentran en la nube.

"Sabemos cómo fortalecer estos sistemas y cómo hacerlo de forma segura", señala el académico.

La cuestión de la responsabilidad podría acabar en los tribunales.

Más de un año después de la masiva interrupción de CrowdStrike, Delta Airlines sigue en disputa con la compañía para recuperar más de US$500 millones en pérdidas.

Incluso después de que CrowdStrike solucionara el problema, la aerolínea afirmó haber tenido que reiniciar manualmente 40.000 servidores, lo que provocó importantes retrasos en los vuelos durante varios días.

"Dado lo integrados que están estos sistemas, determinar la falla no siempre es sencillo", dice Jamali.

Otras interrupciones
Entre las interrupciones importantes ocurridas en años recientes están:

Julio de 2024: Un segmento de un código sospechoso en el software de ciberseguridad CrowdStrike se instaló automáticamente en los sistemas informáticos, provocando su fallo y la aparición de un mensaje de error. Unas 8,5 millones de computadoras quedaron temporalmente sin poder utilizarse, dejando inactivos a muchos servicios de internet.

Octubre de 2021: Un "error de configuración" provocó la caída de Facebook, Instagram y WhatsApp durante casi seis horas. Otros sitios, incluido X, también sufrieron interrupciones debido al aumento de nuevas visitas a sus aplicaciones.
Junio de 2021: Amazon, Reddit, Twitch, GitHub, Shopify, Spotify y varios sitios de noticias estuvieron inactivos durante aproximadamente una hora después de que un bug, previamente desconocido, fuese accidentalmente activado por un cliente en el servicio de computación en la nube del proveedor Fastly.

Diciembre de 2020: Gmail, YouTube, Google Drive y otros servicios de Google se vieron interrumpidos simultáneamente durante unos 90 minutos después de que la compañía informara de "un problema de cuota de almacenamiento interno".

Fuente: BBC

Últimas noticias
Te puede interesar
Lo más visto