172 lines
4.6 KiB
Markdown
172 lines
4.6 KiB
Markdown
# Historico de Operacoes - Infracloud
|
|
|
|
Registro de operacoes e incidentes na infraestrutura.
|
|
|
|
---
|
|
|
|
## 2026-02-18 - Conexao Cluster OCI OKE e Troubleshooting
|
|
|
|
### Contexto
|
|
|
|
Usuario solicitou conexao ao cluster Kubernetes OCI OKE para verificar mudancas de commits e investigar problemas.
|
|
|
|
### Ferramentas Utilizadas
|
|
|
|
| Ferramenta | Versao | Localizacao |
|
|
|------------|--------|-------------|
|
|
| OCI CLI | 3.73.2 | C:\oci\bin\oci.exe |
|
|
| kubectl | v1.31.0 | C:\oci\bin\kubectl.exe |
|
|
| Git | - | C:\dev\infracloud |
|
|
|
|
### Passos Realizados
|
|
|
|
#### 1. Sincronizacao do Repositorio infracloud
|
|
|
|
```bash
|
|
# Local: C:\dev\infracloud
|
|
|
|
# Verificar commits de ontem
|
|
git log --oneline --since="yesterday"
|
|
|
|
# Commits encontrados:
|
|
# 26ce1f6 - docs: add mfe repos URLs to Azure DevOps connection docs
|
|
# 8379e6b - Add OCI and K3s cluster connection documentation
|
|
# fa2ff35 - Add Azure DevOps connection documentation
|
|
|
|
# Stash de mudancas locais (README.md modificado)
|
|
git stash
|
|
|
|
# Pull do remote
|
|
git pull
|
|
# Resultado: 25 arquivos atualizados, 1564 remocoes, 729 adicoes
|
|
|
|
# Resolver conflitos de merge no README.md
|
|
# Mescladas secoes: OCI + Conexoes + Azure DevOps
|
|
|
|
# Commit e push
|
|
git add -A
|
|
git commit -m "docs: add OCI documentation and resolve merge conflicts"
|
|
git push
|
|
# Commit: 3a615e1
|
|
```
|
|
|
|
#### 2. Conexao ao Cluster OCI OKE
|
|
|
|
O cluster ja estava configurado no kubeconfig local.
|
|
|
|
```bash
|
|
# Verificar contexto atual
|
|
kubectl config get-contexts
|
|
# Contexto: context-cobrewkvc3a
|
|
|
|
# Informacoes do cluster
|
|
kubectl cluster-info
|
|
# API Server: https://136.248.124.22:6443
|
|
```
|
|
|
|
**Cluster OCI OKE:**
|
|
| Propriedade | Valor |
|
|
|-------------|-------|
|
|
| API Server | https://136.248.124.22:6443 |
|
|
| Versao K8s | v1.34.1 |
|
|
| Nodes | 3 (10.110.10.16, 10.110.15.40, 10.110.2.160) |
|
|
| CNI | Flannel |
|
|
|
|
#### 3. Investigacao de Pods com Problema
|
|
|
|
**Estado inicial:**
|
|
|
|
```bash
|
|
kubectl get pods -A
|
|
```
|
|
|
|
| Namespace | Pod | Status |
|
|
|-----------|-----|--------|
|
|
| nexus-services | ms-auth-external-57f96d6d9d-7ksmr | CrashLoopBackOff |
|
|
| nexus-services | ms-parameters-666cd67f5-g9dh4 | CrashLoopBackOff |
|
|
| stream | nats-0 | ImagePullBackOff |
|
|
| default | dnscheck-* (varios) | Error |
|
|
|
|
**Diagnostico detalhado:**
|
|
|
|
```bash
|
|
# ms-auth-external
|
|
kubectl describe pod ms-auth-external-57f96d6d9d-7ksmr -n nexus-services
|
|
kubectl logs ms-auth-external-57f96d6d9d-7ksmr -n nexus-services --tail=50
|
|
|
|
# Erro: IAmazonCognitoIdentityProvider nao registrado
|
|
# Exit Code: 139 (SIGSEGV - Segmentation Fault)
|
|
# Causa: Nova versao da imagem :5744 sem configuracao AWS Cognito
|
|
```
|
|
|
|
```bash
|
|
# ms-parameters
|
|
kubectl describe pod ms-parameters-666cd67f5-g9dh4 -n nexus-services
|
|
kubectl logs ms-parameters-666cd67f5-g9dh4 -n nexus-services --tail=50
|
|
|
|
# Erro: Could not find a part of the path '/root/.oci/config'
|
|
# Exit Code: 139 (SIGSEGV)
|
|
# Causa: Nova versao da imagem :5474 sem configuracao OCI
|
|
```
|
|
|
|
```bash
|
|
# nats-0
|
|
kubectl describe pod nats-0 -n stream
|
|
|
|
# Erro: ImagePullBackOff
|
|
# Imagem: gru.ocir.io/grbb7qzeuoag/ms-auth-external/nats:5563
|
|
# Causa: Imagem nao existe no registry OCI
|
|
```
|
|
|
|
#### 4. Acao Corretiva - Rollback
|
|
|
|
A causa raiz foi deploy da branch `devops` com imagens quebradas.
|
|
|
|
**Rollback executado:**
|
|
|
|
```bash
|
|
# Rollback dos deployments
|
|
kubectl rollout undo deployment/ms-auth-external -n nexus-services
|
|
kubectl rollout undo deployment/ms-parameters -n nexus-services
|
|
|
|
# Scale down replicasets quebrados
|
|
kubectl scale replicaset \
|
|
ms-auth-external-796b45cb94 \
|
|
ms-auth-external-57f96d6d9d \
|
|
ms-parameters-666cd67f5 \
|
|
ms-parameters-9d5b74747 \
|
|
-n nexus-services --replicas=0
|
|
```
|
|
|
|
**Resultado:**
|
|
|
|
| Deployment | Replicaset | Imagem | Status |
|
|
|------------|------------|--------|--------|
|
|
| ms-auth-external | 5bb9fd69b5 | :5744 (versao estavel) | 2/2 Running |
|
|
| ms-parameters | 56c86b75 | :5474 (versao estavel) | 2/2 Running |
|
|
|
|
### Licoes Aprendidas
|
|
|
|
1. **Branch devops** esta fazendo deploy automatico de imagens sem testes adequados
|
|
2. **ms-auth-external** requer configuracao AWS Cognito (`IAmazonCognitoIdentityProvider`)
|
|
3. **ms-parameters** requer arquivo `/root/.oci/config` ou variaveis de ambiente OCI
|
|
4. **nats-0** precisa de imagem correta no registry OCI
|
|
|
|
### Acoes Futuras Recomendadas
|
|
|
|
- [ ] Implementar testes de healthcheck antes do deploy
|
|
- [ ] Adicionar gate de aprovacao na pipeline da branch devops
|
|
- [ ] Corrigir imagem do NATS no registry OCI
|
|
- [ ] Configurar AWS Cognito no ms-auth-external (se necessario)
|
|
- [ ] Configurar secrets OCI para ms-parameters
|
|
|
|
---
|
|
|
|
## Referencias
|
|
|
|
- [CONNECTIONS.md](./CONNECTIONS.md) - Credenciais e conexoes
|
|
- [azure-devops/OCI-CONNECTION.md](./azure-devops/OCI-CONNECTION.md) - Configuracao OCI
|
|
|
|
---
|
|
|
|
*Documento atualizado em: 2026-02-18*
|