Founding Senior AI Platform / SRE Engineer, Las Rozas de Madrid
Founding Senior AI Platform / SRE Engineer, Las Rozas de Madrid
-
Las Rozas de Madrid, España
-
Publicado: ayer
-
Guardar
Descripción
La pregunta no es si sabes operar infraestructura. La pregunta es si sabes operar una plataforma de IA cuando la fiabilidad ya no es solo disponibilidad— cuando hay que controlar latencia, costo, rate limits de proveedor, timeouts, saturación de workers, observabilidad de inferencia y rutas de fallback ante caída de un modelo a las tres de la mañana. Y si sabes hacerlo sin convertir la empresa en un laboratorio de Kubernetes mientras el producto se estanca.
Este rol existe porque, en una plataforma de IA, ignorar cualquiera de esos elementos no produce un incidente: produce una empresa que no escala, o que escala de forma incosteable. Y ambos problemas matan startups antes de que el producto tenga oportunidad de demostrar lo que vale.
Lo que vas a construir es la capa que asegura que la plataforma siga funcionando cuando deje de ser una demo, con criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted. Si esto resuena, sigue leyendo.
Sobre Naiian Naiian es una startup Deep Tech europea con equipo en Madrid, well-funded y con un equipo fundador con trayectoria en producto, IA aplicada e ingeniería en entornos críticos. Construimos para clientes que operan en contextos de alta exigencia operativa y decisional, donde la auditabilidad, la integración con fuentes verificables y los mecanismos de aprobación humana sobre tareas sensibles no son features — son la base.
Estamos en fase fundacional. Las personas que se incorporan ahora definen la arquitectura, el código y la cultura técnica que la empresa heredará durante los próximos años.
El rol y¿por qué existe? Vas a asegurar que la infraestructura, los despliegues y la capa de serving de IA sigan funcionando cuando el producto deje de ser una demo. Serás responsable de reliability, deployment, observabilidad, capacity management, autoscaling, recovery, CI/CD, cost engineering, model serving support y las bases del model routing operacional.
La razón por la que este rol existe es concreta: en una plataforma de IA, la fiabilidad no es solo disponibilidad. Es también controlar latencia, costo, rate limits, fallos de proveedor, timeouts, saturación de workers, capacity planning, observabilidad de inferencia y rutas de fallback. Si alguno de esos elementos se ignora, la plataforma se cae o se vuelve incosteable — y ambos problemas matan startups.
Una parte del trabajo es operar APIs managed con criterio, y preparar el camino para usar modelos open-weight self-hosted donde tenga sentido. No tienes que ser experto de bajo nivel en GPUs, pero sí necesitas entender cómo operar workloads de IA con fiabilidad, costo y portabilidad.
Lo que vas a construir en los primeros 6 meses
Entornos de desarrollo, staging y producción reproducibles, con CI/CD sólido, IaC y rollback readiness desde el principio.
Observabilidad end-to-end: logs, metrics, traces, alerts y dashboards operativos que permitan depurar incidentes reales, no solo decorar pantallas.
SLOs iniciales, on-call serio, incident response y postmortems— la base operacional antes de beta.
Autoscaling, capacity planning y cost controls. Disponibilidad sin control de costo y latencia no es suficiente en una plataforma de IA.
Las bases de inference endpoints, model serving y model routing operacional— incluyendo rutas de fallback ante caída de proveedor o saturación.
Métricas funcionales de workloads de IA: por modelo, proveedor, tenant, task, costo y latencia. Sin esas métricas, no hay forma de operar costo ni calidad.
Separación clara entre control plane e inference plane, en coordinación con el equipo fundador.
¿Cómo trabajamos? Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.
Operamos con poco proceso y mucha responsabilidad. Quien despliega un sistema también lo opera. Quien define un SLO también es responsable cuando se rompe. No tratamos la infraestructura como una capa separada del producto — es parte del producto, con sus propios dueños, métricas y trade-offs.
El criterio de calidad lo marca la realidad:¿esto aguanta carga real? ¿se puede depurar bajo presión? ¿controla el costo, no solo la disponibilidad? ¿podríamos cambiar de proveedor sin reescribir todo? Si la respuesta a alguna es “no”, vuelve a la pizarra.
¿Qué buscamos? Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
Track record real de ownership de producción — has gestionado incidentes serios, has tomado decisiones bajo presión y puedes explicar qué aprendiste.
Sólido en CI/CD e IaC (Terraform, Pulumi o equivalentes). Despliegues reproducibles, rollback readiness, no “funciona en mi máquina”.
Observabilidad de verdad: logs, metrics, traces, alerts. Capacidad de depurar bajo presión con herramientas como OpenTelemetry, Datadog, Grafana/Prometheus o equivalentes.
Capacity planning y cost engineering— entiendes que la fiabilidad sin control de costo no es fiabilidad sostenible.
Cómodo con AWS, Docker, Kubernetes (EKS/ECS) o equivalentes. Networking básico, IAM, secrets, hardening.
Comprensión práctica de model serving y operación de workloads de IA, aunque no seas experto de bajo nivel en GPUs.
Criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted — entiendes los trade-offs de costo, latencia, fiabilidad, privacidad y portabilidad.
Nivel profesional de español, vinculado a la naturaleza del puesto, e inglés funcional para trabajar en un equipo bilingüe.
Suma puntos si
Tienes experiencia hands‑on con vLLM, SGLang, Triton, TGI, Ray Serve, KServe, SageMaker, Bedrock o equivalentes de model serving.
Has trabajado con GPU workloads, inferencia, batch processing o sistemas de high‑throughput en producción.
Has operado sistemas multi‑tenant con datos sensibles o requisitos de compliance.
Tienes experiencia con FinOps o cost engineering en cloud— no solo monitorizar, sino actuar sobre el costo.
Vienes de fintech, SaaS enterprise, data platforms o sistemas de alta carga.
Lo que probablemente no encaja
Tu experiencia se concentra en operar Kubernetes sin contexto de producto.
Eres DevOps clásico sin haber gestionado producción crítica bajo presión real.
Eres investigador de modelos o GPU kernel engineer— buscamos plataforma y operación, no research.
Optimizas infraestructura como fin en sí mismo y la velocidad de delivery te resulta secundaria.
Costo, latencia, fallback o seguridad te resultan accesorios frente a la elegancia de la solución técnica.
Compensación Salario:
80.000€ – 90.000 € brutos anuales, según experiencia demostrada y nivel de seniority validado.
Equity:
Paquete de equity fundacional, acorde al carácter founding del rol y al momento de la compañía.
Modalidad:
Full-time, indefinido, 100% presencial en Madrid.
Protección de datos Los datos personales que nos compartas durante el proceso (CV, datos de contacto, información profesional, comunicaciones e información aportada en las entrevistas) serán tratados por Naiian con la finalidad exclusiva de gestionar tu candidatura para este puesto y, si das tu consentimiento expreso, para futuros procesos de selección compatibles con tu perfil. La base jurídica del tratamiento es la aplicación de medidas precontractuales a petición de la persona interesada (art. 6.1.b RGPD) y, en su caso, tu consentimiento (art. 6.1.a RGPD).
Tus datos se conservarán durante el tiempo necesario para gestionar la candidatura y, salvo que ejerzas tu derecho de supresión, hasta un máximo de un año si autorizas su conservación para futuros procesos. No realizamos decisiones automatizadas con efectos jurídicos significativos. Puedes ejercer en cualquier momento tus derechos de acceso, rectificación, supresión, oposición, limitación y portabilidad, así como retirar el consentimiento, escribiendo a la dirección de contacto que aparece en el formulario de aplicación. Tienes derecho a presentar una reclamación ante la Agencia Española de Protección de datos.
— Naiian Recruiting Team
#J-18808-Ljbffr
Este rol existe porque, en una plataforma de IA, ignorar cualquiera de esos elementos no produce un incidente: produce una empresa que no escala, o que escala de forma incosteable. Y ambos problemas matan startups antes de que el producto tenga oportunidad de demostrar lo que vale.
Lo que vas a construir es la capa que asegura que la plataforma siga funcionando cuando deje de ser una demo, con criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted. Si esto resuena, sigue leyendo.
Sobre Naiian Naiian es una startup Deep Tech europea con equipo en Madrid, well-funded y con un equipo fundador con trayectoria en producto, IA aplicada e ingeniería en entornos críticos. Construimos para clientes que operan en contextos de alta exigencia operativa y decisional, donde la auditabilidad, la integración con fuentes verificables y los mecanismos de aprobación humana sobre tareas sensibles no son features — son la base.
Estamos en fase fundacional. Las personas que se incorporan ahora definen la arquitectura, el código y la cultura técnica que la empresa heredará durante los próximos años.
El rol y¿por qué existe? Vas a asegurar que la infraestructura, los despliegues y la capa de serving de IA sigan funcionando cuando el producto deje de ser una demo. Serás responsable de reliability, deployment, observabilidad, capacity management, autoscaling, recovery, CI/CD, cost engineering, model serving support y las bases del model routing operacional.
La razón por la que este rol existe es concreta: en una plataforma de IA, la fiabilidad no es solo disponibilidad. Es también controlar latencia, costo, rate limits, fallos de proveedor, timeouts, saturación de workers, capacity planning, observabilidad de inferencia y rutas de fallback. Si alguno de esos elementos se ignora, la plataforma se cae o se vuelve incosteable — y ambos problemas matan startups.
Una parte del trabajo es operar APIs managed con criterio, y preparar el camino para usar modelos open-weight self-hosted donde tenga sentido. No tienes que ser experto de bajo nivel en GPUs, pero sí necesitas entender cómo operar workloads de IA con fiabilidad, costo y portabilidad.
Lo que vas a construir en los primeros 6 meses
Entornos de desarrollo, staging y producción reproducibles, con CI/CD sólido, IaC y rollback readiness desde el principio.
Observabilidad end-to-end: logs, metrics, traces, alerts y dashboards operativos que permitan depurar incidentes reales, no solo decorar pantallas.
SLOs iniciales, on-call serio, incident response y postmortems— la base operacional antes de beta.
Autoscaling, capacity planning y cost controls. Disponibilidad sin control de costo y latencia no es suficiente en una plataforma de IA.
Las bases de inference endpoints, model serving y model routing operacional— incluyendo rutas de fallback ante caída de proveedor o saturación.
Métricas funcionales de workloads de IA: por modelo, proveedor, tenant, task, costo y latencia. Sin esas métricas, no hay forma de operar costo ni calidad.
Separación clara entre control plane e inference plane, en coordinación con el equipo fundador.
¿Cómo trabajamos? Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.
Operamos con poco proceso y mucha responsabilidad. Quien despliega un sistema también lo opera. Quien define un SLO también es responsable cuando se rompe. No tratamos la infraestructura como una capa separada del producto — es parte del producto, con sus propios dueños, métricas y trade-offs.
El criterio de calidad lo marca la realidad:¿esto aguanta carga real? ¿se puede depurar bajo presión? ¿controla el costo, no solo la disponibilidad? ¿podríamos cambiar de proveedor sin reescribir todo? Si la respuesta a alguna es “no”, vuelve a la pizarra.
¿Qué buscamos? Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
Track record real de ownership de producción — has gestionado incidentes serios, has tomado decisiones bajo presión y puedes explicar qué aprendiste.
Sólido en CI/CD e IaC (Terraform, Pulumi o equivalentes). Despliegues reproducibles, rollback readiness, no “funciona en mi máquina”.
Observabilidad de verdad: logs, metrics, traces, alerts. Capacidad de depurar bajo presión con herramientas como OpenTelemetry, Datadog, Grafana/Prometheus o equivalentes.
Capacity planning y cost engineering— entiendes que la fiabilidad sin control de costo no es fiabilidad sostenible.
Cómodo con AWS, Docker, Kubernetes (EKS/ECS) o equivalentes. Networking básico, IAM, secrets, hardening.
Comprensión práctica de model serving y operación de workloads de IA, aunque no seas experto de bajo nivel en GPUs.
Criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted — entiendes los trade-offs de costo, latencia, fiabilidad, privacidad y portabilidad.
Nivel profesional de español, vinculado a la naturaleza del puesto, e inglés funcional para trabajar en un equipo bilingüe.
Suma puntos si
Tienes experiencia hands‑on con vLLM, SGLang, Triton, TGI, Ray Serve, KServe, SageMaker, Bedrock o equivalentes de model serving.
Has trabajado con GPU workloads, inferencia, batch processing o sistemas de high‑throughput en producción.
Has operado sistemas multi‑tenant con datos sensibles o requisitos de compliance.
Tienes experiencia con FinOps o cost engineering en cloud— no solo monitorizar, sino actuar sobre el costo.
Vienes de fintech, SaaS enterprise, data platforms o sistemas de alta carga.
Lo que probablemente no encaja
Tu experiencia se concentra en operar Kubernetes sin contexto de producto.
Eres DevOps clásico sin haber gestionado producción crítica bajo presión real.
Eres investigador de modelos o GPU kernel engineer— buscamos plataforma y operación, no research.
Optimizas infraestructura como fin en sí mismo y la velocidad de delivery te resulta secundaria.
Costo, latencia, fallback o seguridad te resultan accesorios frente a la elegancia de la solución técnica.
Compensación Salario:
80.000€ – 90.000 € brutos anuales, según experiencia demostrada y nivel de seniority validado.
Equity:
Paquete de equity fundacional, acorde al carácter founding del rol y al momento de la compañía.
Modalidad:
Full-time, indefinido, 100% presencial en Madrid.
Protección de datos Los datos personales que nos compartas durante el proceso (CV, datos de contacto, información profesional, comunicaciones e información aportada en las entrevistas) serán tratados por Naiian con la finalidad exclusiva de gestionar tu candidatura para este puesto y, si das tu consentimiento expreso, para futuros procesos de selección compatibles con tu perfil. La base jurídica del tratamiento es la aplicación de medidas precontractuales a petición de la persona interesada (art. 6.1.b RGPD) y, en su caso, tu consentimiento (art. 6.1.a RGPD).
Tus datos se conservarán durante el tiempo necesario para gestionar la candidatura y, salvo que ejerzas tu derecho de supresión, hasta un máximo de un año si autorizas su conservación para futuros procesos. No realizamos decisiones automatizadas con efectos jurídicos significativos. Puedes ejercer en cualquier momento tus derechos de acceso, rectificación, supresión, oposición, limitación y portabilidad, así como retirar el consentimiento, escribiendo a la dirección de contacto que aparece en el formulario de aplicación. Tienes derecho a presentar una reclamación ante la Agencia Española de Protección de datos.
— Naiian Recruiting Team
#J-18808-Ljbffr
Información clave
-
Nombre de la empresanaiian
-
Nombre de la vacanteFounding Senior AI Platform / SRE Engineer
Consejos de seguridad
Ten cuidado si el anuncio tiene errores ortográficos.
Más info sobre el anuncio
El anuncio Founding Senior AI Platform / SRE Engineer fue publicado en la categoría Las Rozas de Madrid Informática de Locanto.
Ahora mismo, no tenemos más anuncios en esta categoría en Las Rozas de Madrid.
¿Buscas algo más? Puedes aumentar tu radio de búsqueda y mirar los resultados en otras ubicaciones cerca de ti, como Informática en Torrelodones, Boadilla del Monte o Villanueva de la Cañada. Además, en esta sección, disponemos de más anuncios clasificados en un radio de 15 km. Haz clic aquí para verlos.