En combinant des Remote Backends soigneusement structurés, une conception réfléchie des outputs et une utilisation ciblée de la source de données terraform_remote_state, vous pouvez établir un flux d'informations contrôlé entre différents niveaux de locataires - et ce, sans compromettre l'isolation des mandants individuels.
L'utilisation efficace du Remote State pour l'échange d'informations entre unités organisationnelles nécessite une configuration soigneuse de l'environnement Terraform. L'élément central ici est le choix et la configuration d'un Storage Backend approprié pour le stockage des données d'état dans les fichiers dits State Files.
Dans la partie précédente de cette série, nous avons expliqué les bases du concept de Remote State dans Terraform et comment il peut être utilisé pour l'héritage d'informations dans des environnements multi-tenants. Nous allons maintenant illustrer cela à l'aide d'un exemple concret d'architecture.
L’extension de Terraform au-delà des frontières organisationnelles nécessite un équilibre minutieux entre standardisation et flexibilité. Grâce à des structures d’équipe claires, une gouvernance bien pensée, des processus CI/CD automatisés et un support d’outillage approprié, il est possible de gérer efficacement des infrastructures complexes à locataires multiples. Avec ces bases solides, vous pouvez étendre votre pratique de Terraform d’équipes individuelles à l’ensemble de l’organisation, tout en garantissant cohérence, sécurité et efficacité.
Cet article est la première partie d’une série sur la conception de la gestion multi-locataires en tant qu’Infrastructure-as-Code dans des infrastructures de grande envergure.
Target, l'un des plus grands détaillants des États-Unis avec plus de 1 800 magasins, faisait face à un défi complexe : l'orchestration des charges de travail sur plusieurs environnements - du cloud public aux centres de données internes en passant par les sites en périphérie dans les magasins. Kubernetes était déjà utilisé ponctuellement, mais s'avérait trop complexe et trop coûteux en exploitation. La décision s'est finalement portée sur HashiCorp Nomad, ce qui a permis d'accélérer considérablement les cycles de développement et de simplifier l'infrastructure. Ce succès illustre un schéma récurrent dans le secteur : les entreprises reconnaissent de plus en plus la valeur des solutions d'orchestration légères et efficaces, qui se concentrent sur l'essentiel.
Lire la suite : Nomad : Orchestration de workloads moderne et légère pour les entreprises
Le 19 juillet 2024, une panne informatique majeure, due à une mise à jour défectueuse de la plateforme Falcon de CrowdStrike, a entraîné des perturbations généralisées dans divers secteurs, notamment le trafic aérien, les hôpitaux et les agences gouvernementales. Cette plateforme est censée renforcer la sécurité en bloquant les attaques en temps réel. Pour cela, des points de mesure sont profondément intégrés dans le système serveur, nécessitant les privilèges administratifs les plus élevés sur ces systèmes eux-mêmes. Cette approche est déjà discutable en soi, mais une autre surface d'attaque a été ajoutée : ces capteurs, intégrés en profondeur dans les processus du système pour la surveillance de la sécurité, recevaient leurs mises à jour via un système de distribution mondial contrôlé par CrowdStrike - mis en place avec la bonne intention d'assurer une couverture de sécurité globale cohérente, sans dépendre de l'initiative des clients.
Une telle approche centralisée ne pose évidemment aucun problème tant qu'elle fonctionne et ne provoque pas de dysfonctionnements. Mais c'est précisément ce qui s'est produit - une mise à jour défectueuse a été largement déployée sur des systèmes serveurs fonctionnant sous Microsoft Windows. En raison de l'intégration profonde dans les systèmes, une bibliothèque défectueuse (sensorsvc.dll) a entraîné des erreurs critiques du noyau connues sous le nom de Blue Screens, et ce "Single Point of Failure" a transformé l'objectif d'une couverture de sécurité cohérente en une panne globale. Les compagnies aériennes ont été particulièrement touchées - environ 1 500 vols ont été annulés -, ainsi que les banques, le commerce de détail et le secteur de la santé. La mise à jour a été retirée, mais les systèmes serveurs ont dû être réparés manuellement en mode sans échec. Cet incident a mis en évidence les vulnérabilités des systèmes de distribution de mises à jour centralisés et les réactions en chaîne qu'un tel "Single Point of Failure" peut provoquer.
Un autre aspect a également été mis en lumière : les conséquences de l'absence de mesures fondamentales pour se prémunir contre les pannes. Il s'agit notamment d'une surveillance robuste de l'état des services avec des basculements automatisés, de mécanismes permettant de limiter le Blast Radius et de capacités avancées de reprise après sinistre. Les clients qui avaient anticipé ces risques ont simplement pu activer leurs systèmes de secours. Mais peu y avaient pensé. Pourtant, ces principes architecturaux deviennent de plus en plus indispensables pour les systèmes critiques pour l'activité.
Lire la suite : Consul : Networking Zero Trust moderne pour l'entreprise - Un aperçu
Plus d'articles...
- Sécurisation de l'infrastructure d'entreprise moderne avec HashiCorp Vault
- Terraform pour les entreprises: Comprendre le provisionnement moderne de l'infrastructure, ou Leçons tirées d'une erreur à 460 millions de dollars
- Guide du débutant sur Retrieval-Augmented Generation (RAG) - Partie 2
- La mentalité Everything-as-Code : Une approche globale des opérations informatiques et au-delà