Terraform @ Scale - 第1e部分：跨组织边界的扩展

当 Terraform 基础设施的管理跨越多个业务领域，甚至涉及不同客户组织时，管理工作将变得尤为复杂。
在这种场景下，仅从技术角度干净地搭建单个 Workspace 或 Pipeline 已远远不够。决策者、CTO、架构师和高级工程师需要清晰结构化的职责划分、严格的治理体系以及端到端自动化流程，以确保一致性、安全性和高效性。我们此前已经详细讨论了状态（State）的分离，但在此，还是让我们以要点的方式做一个总结。

团队结构与职责划分

为了实现最佳实践，整个基础设施的管理可以至少划分为三个主要的责任领域：

平台工程团队

平台工程团队负责管理 Root Tenancy 以及企业所有的中央云账户和 Compartments，从而为所有后续活动创建组织框架。

此外，该团队负责创建、版本控制和维护所有其他团队使用的基础模块，以确保统一的技术基础。

同时，平台工程团队制定统一的架构规范、标签标准和命名规则 - 这些规则在全公司范围内保障一致性和透明性。

最后，平台工程团队还运营并加固 Terraform 后端及 CI/CD 平台，以保证平台运行的稳定性、可扩展性和审计安全性。

服务团队

服务团队基于平台团队提供的基础模块，开发面向具体领域或产品的服务模块，确保与其业务领域的高度契合。

他们对其所属业务领域的基础设施负责，并直接将业务需求转化为 Infrastructure-as-Code 工件。

所需模块通过私有注册中心（Private Registry）、Git 子模块或成熟的软件包管理器便捷地获取，从而确保始终使用最新、统一的版本。

应用团队

应用团队基于服务模块部署应用相关的资源，从而能够专注于提升软件本身的业务价值。

他们将基础设施与代码集成到端到端的部署流水线中，使发布过程可复现、可审计且自动化。

尽管应用团队拥有较高的自主权，但仍须遵循所有中央定义的规范，以确保整体平台的安全性与治理要求得以落实。

信任区域与 State 隔离

每个组织层级都有其独立的信任区域。通过后端配置、IAM 策略和 CI/CD 流水线，确保各团队只能访问其自身负责的 State，从而防止例如应用团队无意中更改平台资源的情况发生。

治理与合规

Policy-as-Code

使用 HashiCorp Sentinel 或 Open Policy Agent，可以将强制性规则以代码的形式定义，并在整个基础设施生命周期中作为自动化的控制机制。

import "tfplan/v2" as tfplan

mandatory_tags = ["Owner","CostCenter","Environment"]

validate_instances = rule {
  all tfplan.resource_changes as _, rc {
    rc.type is "oci_core_instance" and rc.change.actions contains "create" implies
      all mandatory_tags as tag { rc.change.after.defined_tags[tag] is not null }
  }
}

main = rule { validate_instances }

合规自动化

直接从 Terraform 输出中自动生成合规文档，能够减少大量手动工作量，并且随时提供可追溯的审核证据。

此外，通过对生产环境基础设施进行定期扫描，可以持续比对其与声明状态的一致性，并及早发现偏差。

多账户策略

通过分离的云账户，可以加强 Tenant 之间的隔离，但这也要求严格的凭证管理及调整后的 CI/CD 流水线，以避免影响运行稳定性和安全性。因此，除了使用 Terraform Workspaces 之外，还应使用 Provider-Aliases，如以下示例所示：

provider "oci" {
  alias            = "tenant_a"
  tenancy_ocid     = var.tenant_a_ocid
  user_ocid        = var.tenant_a_user_ocid
  fingerprint      = var.tenant_a_fingerprint
  private_key_path = var.tenant_a_private_key_path
  auth_type        = "api_key"
  region           = var.tenant_a_region
}

provider "oci" {
  alias        = "tenant_b"
  tenancy_ocid = var.tenant_b_ocid
  auth_type    = "api_key"
}

CI/CD 集成

一个健壮的流水线工作流通常会经历 Validation、Planning、Approval、Apply 和 Verification 阶段，为多租户环境下的可复现与可审计部署打下基础。

动态 Tenant 配置

Tenant 信息可以动态地从多种来源读取，通常是数据库或目录服务，但也可以是简单的 YAML 构件或 JSON 文件。例如：

tenants:
  - name: customer_a
    environment: production
    region: eu-frankfurt-1
    approval_required: true
  - name: internal_test
    environment: development
    region: eu-amsterdam-1
    approval_required: false

用于策略验证的示例 Job（GitLab）

如果您没有使用 Sentinel，而是依赖外部工具进行策略验证，可以如本示例所示，将其作为流水线中的额外步骤集成，例如使用 Python 脚本：

validate_policies:
  image: hashicorp/terraform:1.7
  stage: validate
  script:
    - terraform init
    - terraform plan -out=tfplan
    - terraform show -json tfplan | gzip > tfplan.json.gz
    - python scripts/validate_policies.py tfplan.json.gz
  artifacts:
    paths:
      - tfplan.json.gz

自助服务门户

一个带有精选模块目录的自助服务门户，允许各业务部门通过几次点击即可订购标准化的基础设施，而后台的自动化 CI/CD 流水线则确保受控的交付过程。

如果将使用自助服务门户设为强制性要求，这也能显著提升整个企业的合规性，因为此时只有门户本身需要具备在应用团队层级上执行部署的权限。门户未提供的内容，也无法被单独实施，从而进一步降低了影子 IT 的风险，同时简化了 Zero Trust 策略的落地，因为应用团队本身将不再被视为可信组织。通过这种方式，您可以将内部最终用户像客户一样对待。

Terraform Cloud 和 Enterprise 的重要功能

对于复杂的基础设施，Terraform Cloud 或 Terraform Enterprise 是不可或缺的选择。如果您重视数据主权，特别是在欧盟内部这是标准要求，或者您受限于安全相关的监管规定，那么 Terraform Enterprise 将是唯一可行的路径。

Workspace 管理

为每个 Tenant 分配单独的 Workspace（由 Terraform Enterprise 和 Terraform Cloud 支持，注意不要与免费版 Terraform 中的 CLI 命令 terraform workspace 混淆，两者完全不同），能够实现严格的隔离，并支持每个租户的精细化版本控制与发布流程。

标签（Tags）和可复用的变量集（Variable Sets）大大简化了配置管理，减少了大型 Workspace 环境中的重复工作。

团队与权限管理

细粒度的角色矩阵可在每个 Workspace 内区分读取、写入与审批权限，从而实现职责分离（Separation of Duties）。

简便的 SSO 集成能够将 Terraform Cloud 或 Enterprise 连接到现有的企业身份系统，加快员工入职与离职流程。

Run Triggers 与依赖管理

在中心 Workspace 中的变更可以自动触发相关依赖 Workspace 的 Plan 操作，从而确保多层次环境中的一致性升级。

Private Registry

Private Registry 负责所有模块的中央版本控制，自动发布模块文档，并创建一个用于可复用基础设施组件的 Single Point of Truth。

成本预测与漂移检测

集成的成本预测功能可以在 Apply 之前就为每个 Tenant 提供可靠的基础设施费用估算，帮助实现精确的预算规划。虽然大多数云服务提供商本身提供一定的成本工具，但即使没有原生支持，您也可以通过自定义的 Pricing-Tags 实现相同目标。这些标签值可以来源于 CSV 文件、数据库等外部源。当价格发生变化时，只需更新这些标签即可，因为自定义标签通常可以非破坏性地更新。真正的挑战在于处理流量计费等基于使用量的隐藏成本，尤其是在 AWS 这样的环境中。

与此同时，漂移检测（Drift Detection）会持续监控声明状态与实际状态之间的偏差，并在问题发生前及时预警。漂移检测是 Terraform Enterprise 和 Terraform Cloud 提供的功能。

审计与审计安全性

Audit 一个跨越多个 Tenant 的可扩展 Terraform 架构不仅需要结构化的职责划分与自动化流程，还必须实现无缝审计的基础设施变更记录。

Terraform Cloud 和 Terraform Enterprise 提供了集成的审计日志，能够按时间顺序、不可篡改且可导出地记录所有关键事件，例如 Plan 的触发、变量变更、团队分配或 terraform apply 的执行。这些日志可以集成到外部 SIEM 系统中，以满足安全策略、法律要求或行业特定的合规标准，例如 ISO 27001、BSI C5 或 SOC 2。

对于追求更高审计透明度与可追溯性的企业，推荐进一步结合 Elastic Stack 或 Splunk 等中央日志管理解决方案，以便同时关联分析来自 Terraform、GitLab、CI/CD 流水线、身份提供商及云 API 的上下文信息。

特别值得一提的是，将变更集（Changesets）与工单系统（如 Jira）关联，以及建立明确的变更审批流程，可以确保每一项变更都由至少一位授权人员审核与批准。这是职责分离和最小权限策略（Least Privilege）的核心组成部分。

总结

跨越组织边界进行规模化扩展，远远不只是掌握 Terraform 技能。唯有将明确的团队结构、严格的策略检查、自动化的合规流程以及现代化的 CI/CD 流水线，与 Terraform Cloud 或 Enterprise 的多租户能力有机结合，才能打造出一个安全、可复现且高效的基础设施，即便横跨众多 Tenant 也能稳定运行。

Ralf Ramge

Founder, Cloud Architect & IT Consultant