infracloud/inventcloud/invista/nexus/OPERATIONS.md

4.6 KiB

Historico de Operacoes - Infracloud

Registro de operacoes e incidentes na infraestrutura.


2026-02-18 - Conexao Cluster OCI OKE e Troubleshooting

Contexto

Usuario solicitou conexao ao cluster Kubernetes OCI OKE para verificar mudancas de commits e investigar problemas.

Ferramentas Utilizadas

Ferramenta Versao Localizacao
OCI CLI 3.73.2 C:\oci\bin\oci.exe
kubectl v1.31.0 C:\oci\bin\kubectl.exe
Git - C:\dev\infracloud

Passos Realizados

1. Sincronizacao do Repositorio infracloud

# Local: C:\dev\infracloud

# Verificar commits de ontem
git log --oneline --since="yesterday"

# Commits encontrados:
# 26ce1f6 - docs: add mfe repos URLs to Azure DevOps connection docs
# 8379e6b - Add OCI and K3s cluster connection documentation
# fa2ff35 - Add Azure DevOps connection documentation

# Stash de mudancas locais (README.md modificado)
git stash

# Pull do remote
git pull
# Resultado: 25 arquivos atualizados, 1564 remocoes, 729 adicoes

# Resolver conflitos de merge no README.md
# Mescladas secoes: OCI + Conexoes + Azure DevOps

# Commit e push
git add -A
git commit -m "docs: add OCI documentation and resolve merge conflicts"
git push
# Commit: 3a615e1

2. Conexao ao Cluster OCI OKE

O cluster ja estava configurado no kubeconfig local.

# Verificar contexto atual
kubectl config get-contexts
# Contexto: context-cobrewkvc3a

# Informacoes do cluster
kubectl cluster-info
# API Server: https://136.248.124.22:6443

Cluster OCI OKE:

Propriedade Valor
API Server https://136.248.124.22:6443
Versao K8s v1.34.1
Nodes 3 (10.110.10.16, 10.110.15.40, 10.110.2.160)
CNI Flannel

3. Investigacao de Pods com Problema

Estado inicial:

kubectl get pods -A
Namespace Pod Status
nexus-services ms-auth-external-57f96d6d9d-7ksmr CrashLoopBackOff
nexus-services ms-parameters-666cd67f5-g9dh4 CrashLoopBackOff
stream nats-0 ImagePullBackOff
default dnscheck-* (varios) Error

Diagnostico detalhado:

# ms-auth-external
kubectl describe pod ms-auth-external-57f96d6d9d-7ksmr -n nexus-services
kubectl logs ms-auth-external-57f96d6d9d-7ksmr -n nexus-services --tail=50

# Erro: IAmazonCognitoIdentityProvider nao registrado
# Exit Code: 139 (SIGSEGV - Segmentation Fault)
# Causa: Nova versao da imagem :5744 sem configuracao AWS Cognito
# ms-parameters
kubectl describe pod ms-parameters-666cd67f5-g9dh4 -n nexus-services
kubectl logs ms-parameters-666cd67f5-g9dh4 -n nexus-services --tail=50

# Erro: Could not find a part of the path '/root/.oci/config'
# Exit Code: 139 (SIGSEGV)
# Causa: Nova versao da imagem :5474 sem configuracao OCI
# nats-0
kubectl describe pod nats-0 -n stream

# Erro: ImagePullBackOff
# Imagem: gru.ocir.io/grbb7qzeuoag/ms-auth-external/nats:5563
# Causa: Imagem nao existe no registry OCI

4. Acao Corretiva - Rollback

A causa raiz foi deploy da branch devops com imagens quebradas.

Rollback executado:

# Rollback dos deployments
kubectl rollout undo deployment/ms-auth-external -n nexus-services
kubectl rollout undo deployment/ms-parameters -n nexus-services

# Scale down replicasets quebrados
kubectl scale replicaset \
  ms-auth-external-796b45cb94 \
  ms-auth-external-57f96d6d9d \
  ms-parameters-666cd67f5 \
  ms-parameters-9d5b74747 \
  -n nexus-services --replicas=0

Resultado:

Deployment Replicaset Imagem Status
ms-auth-external 5bb9fd69b5 :5744 (versao estavel) 2/2 Running
ms-parameters 56c86b75 :5474 (versao estavel) 2/2 Running

Licoes Aprendidas

  1. Branch devops esta fazendo deploy automatico de imagens sem testes adequados
  2. ms-auth-external requer configuracao AWS Cognito (IAmazonCognitoIdentityProvider)
  3. ms-parameters requer arquivo /root/.oci/config ou variaveis de ambiente OCI
  4. nats-0 precisa de imagem correta no registry OCI

Acoes Futuras Recomendadas

  • Implementar testes de healthcheck antes do deploy
  • Adicionar gate de aprovacao na pipeline da branch devops
  • Corrigir imagem do NATS no registry OCI
  • Configurar AWS Cognito no ms-auth-external (se necessario)
  • Configurar secrets OCI para ms-parameters

Referencias


Documento atualizado em: 2026-02-18