4.15 Monitoramentos Específicos de uma Aplicação

No capítulo anterior, construímos um sidecar genérico capaz de coletar métricas de infraestrutura — uso de CPU, memória, rede e outros indicadores importantes do ambiente. Esse tipo de monitoramento é extremamente valioso, pois nos dá visibilidade sobre a saúde do container e do sistema como um todo. No entanto, ele responde apenas parte do problema.

Quando trabalhamos com aplicações de Machine Learning, especialmente em produção, não estamos interessados apenas em saber se o container está saudável — queremos entender se o modelo está se comportando corretamente.

Um sidecar genérico, por melhor que seja, não tem conhecimento do domínio da aplicação. Ele não sabe quando uma inferência começa ou termina, não entende o que é uma predição, nem consegue distinguir se uma operação demorou porque o modelo é pesado ou porque houve contenção de CPU. Em outras palavras, ele observa o “corpo”, mas não entende o “comportamento”.

É aqui que entram as métricas específicas da aplicação. Ao instrumentarmos diretamente o código do serviço, conseguimos medir aspectos fundamentais como:

Tempo de inferência do modelo
Quantidade de requisições processadas
Distribuição de latência
Taxa de erro da aplicação ou métricas de qualidade do modelo (quando disponíveis)

Essas métricas trazem uma visão muito mais próxima do problema de negócio. Por exemplo, uma CPU em 30% pode parecer saudável, mas se o tempo de inferência estiver crescendo gradualmente, isso pode indicar problemas no modelo, no volume de dados ou até um indício de data drift.

Outro ponto importante é que sistemas de Machine Learning frequentemente possuem características que não aparecem em aplicações tradicionais. Modelos diferentes possuem custos computacionais muito distintos, pipelines podem envolver etapas complexas de pré-processamento, e a própria natureza probabilística das predições exige um olhar mais cuidadoso sobre comportamento ao longo do tempo.

Portanto, o monitoramento em MLOps precisa ir além da infraestrutura: ele deve capturar sinais do próprio modelo. E isso só é possível quando instrumentamos explicitamente a aplicação, expondo métricas que fazem sentido para aquele contexto específico.

É exatamente isso que começaremos a fazer agora.

Uma coisa básica que precisamos fazer é medir a latência de acesso ao modelo, ou seja, quanto tempo demora uma inferência.

Vamos começar alterando o projeto http-api-classificacao-produtos-container-unico.

Modifique o requirements.txt:

Flask==3.1.3
scikit-learn==1.8.0
gunicorn==25.1.0
+prometheus-client==0.24.1

E agora altere app.py:

+from flask import Flask, request, jsonify, g, Response
import pickle
+import time
+from prometheus_client import Summary, generate_latest, CONTENT_TYPE_LATEST

+MODEL_LATENCY = Summary(
+    'product_classifier_model_inference_seconds',
+    'Product classifier model inference time'
+)

app = Flask(__name__)

model = pickle.load(open('model.sav', 'rb'))


+@app.route('/metrics')
+def metrics():
+    return Response(generate_latest(), mimetype=CONTENT_TYPE_LATEST)

@app.route('/predizer_categoria', methods=['POST'])
def predizer_categoria():
    request_data = request.get_json()
    input_message = [request_data['descricao']]

+    start = time.time()
    input_message = model["vect"].transform(input_message)
    final_prediction = model["clf"].predict(input_message)[0]
+    MODEL_LATENCY.observe(time.time() - start)

    response = {
        'categoria': final_prediction
    }

    return jsonify(response)

Por padrão, o Prometheus espera que as métricas estejam disponíveis no caminho /metrics. Como nossa API está atrás do nginx (portanto apareceria no caminho /api/metrics), precisamos expor essa rota corretamente.

server {
    listen 80;

    location / {
        root /www;
    }

    location /api/ {
        rewrite /api/(.*)$ /$1 break;
        proxy_pass http://127.0.0.1:5000;
        proxy_set_header Host $host;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    }

+    location /metrics {
+        proxy_pass http://127.0.0.1:5000/metrics;
+    }
}

Agora podemos reconstruir a imagem e subir o container novamente.

docker build -t http-api-classificacao-produtos-container-unico .

docker run -d -p 8080:80 --network minharede --name http-api-classificacao-produtos-container-unico-container http-api-classificacao-produtos-container-unico

Agora vamos adicionar essa nova fonte de métricas ao Prometheus. Na pasta prometheus, modifique o arquivo prometheus.yml:

global:
  scrape_interval: 5s  # mesma frequência do exporter

scrape_configs:
  - job_name: 'docker-exporter'
    static_configs:
      - targets: ['docker-exporter-sidecar:8000']
+  - job_name: 'http-api-classificacao-produtos-container-unico'
+    static_configs:
+      - targets: ['http-api-classificacao-produtos-container-unico-container']

Reconstrua a imagem e suba-o novamente:

docker build -t meu-prometheus .

docker run -d \
  --name prometheus \
  --network minharede \
  -p 9090:9090 \
  meu-prometheus

Acessando a interface do Prometheus (http://localhost:9090), você verá que agora existem 3 novas métricas para serem consultadas. Isso aconteceu porque, quando utilizamos um Summary no Prometheus, ele não gera apenas uma métrica — ele gera um conjunto de métricas relacionadas. Neste caso, são as seguintes:

product_classifier_model_inference_seconds_count: Representa o total de inferências observadas. É basicamente um contador. Você pode usar para calcular vazão/throughput (inferências por segundo).
product_classifier_model_inference_seconds_sum: Representa a soma total do tempo de todas as requisições. Com isso, você pode calcular a média.
product_classifier_model_inference_seconds_created: Indica o timestamp de criação da métrica. Na prática, raramente é usada em dashboards, sendo mais útil para debug ou inspeção interna.

O tipo Summary é útil para medições locais, mas possui limitações em ambientes distribuídos, pois seus quantis não podem ser agregados entre múltiplas instâncias. Em cenários com múltiplos containers, o uso de Histogram costuma ser mais recomendado.

Criando um dashboard

Agora que nossa API expõe métricas e o Prometheus já está coletando, podemos visualizar no Grafana. Vamos criar um dashboard focado em métricas de inferência:

Acesse o Grafana
Clique em Dashboards
Clique em New → New Dashboard (para o nome, pode escolher "Métricas de inferência")

Agora crie um painel:

rate(product_classifier_model_inference_seconds_sum[1m]) / rate(product_classifier_model_inference_seconds_count[1m])

Title: Latência do classificador de produtos (Média)
Unit: seconds (s)
Visualization: Time series

Testando com o K6

Acesse a pasta do K6 e vamos executar nosso teste de carga que configuramos na seção anterior:

docker run --rm -i --network minharede grafana/k6 run - < load-test-batch.js

Veja como o Grafana começa a mostrar a latência da inferência, que é bem baixa. Se compararmos com os valores exibidos pelo K6, podemos observar que os valores observados no Grafana são bem menores. Isso acontece porque estamos medindo exclusivamente o tempo de inferência, enquanto o K6 mede o tempo de ponta-a-ponta, incluindo a requisição, o tratamento que passa pelo nginx/wsgi, até chegar ao código da inferência.

De fato, este modelo é para ser rápido mesmo, pois se trata de um classificador simples.

Mas isso também evidencia uma decisão importante: ao instrumentar apenas o tempo de inferência, estamos ignorando latências de rede, serialização, fila e proxy. Dependendo do objetivo, pode ser necessário medir múltiplas etapas separadamente. Por exemplo, em arquiteturas assíncronas, como pipelines baseados em filas ou sistemas de streaming, essa diferença se torna ainda mais relevante. Nesses cenários, o tempo de inferência isolado representa apenas uma parte do processamento total, sendo necessário monitorar também métricas como o tamanho da fila (lag), o tempo total de processamento end-to-end e a taxa de produção e consumo de mensagens. Essas métricas permitem identificar gargalos que não estão diretamente relacionados ao modelo, mas sim à infraestrutura ao redor.

Para efeitos de comparação, vamos medir o tempo gasto para inferência do modelo baseado em BERT.

Vá até a pasta analise-sentimentos.

Modifique o requirements.txt:

# Tested on Python 3.9.19

# Para análise de sentimentos
torch==1.10.2
torchaudio==0.10.2
torchvision==0.11.3
transformers==4.38.2
numpy==1.26.4
kafka-python==2.3.0
+prometheus-client==0.24.1

E agora altere app.py:

from classificador.model import Model
from kafka import KafkaConsumer
import json
+import time
+from prometheus_client import Summary, start_http_server

+MODEL_LATENCY = Summary(
+    'sentiment_classifier_model_inference_seconds',
+    'Sentiment classifier model inference time'
+)

+# --- Inicia servidor HTTP para Prometheus coletar métricas ---
+start_http_server(8000)  # Prometheus vai fazer scrape em http://analise-sentimentos-consumer-container:8000/metrics

# Conecta o classificador ao Kafka, em servidor local, no tópico "chatbot"
consumer = KafkaConsumer('chatbot', bootstrap_servers='broker:29092')

# Carrega o modelo BERT pré-treinado (demora um tempinho)
print('Carregando modelo...')
model = Model()
print('Modelo carregado!')

# Enquanto houver mensagens, analisa o sentimento
for msg in consumer:
    obj = json.loads(msg.value)
+    start = time.time()
    sentiment, confidence, probabilities = model.predict(obj['pergunta'])
+    MODEL_LATENCY.observe(time.time() - start)
    sentimento = ':|'
    if sentiment == 'negative':
        sentimento = ':('
    elif sentiment == 'positive':
        sentimento = ':)'
    print (sentimento + ' ' + obj['nome']+' disse '+obj['pergunta'])
    if sentiment == 'negative':
        print('Atendente humano, converse com o usuário '+obj['nome']+' na sessão '+obj['sessao']+"! Rápido!")

Agora basta construir a imagem e subir o container:

docker build -t analise-sentimentos-consumer .

docker run -d --name zookeeper --network minharede -e ZOOKEEPER_CLIENT_PORT=2181 -e ZOOKEEPER_TICK_TIME=2000 confluentinc/cp-zookeeper:7.0.1

docker run -d --name broker --network minharede -p 9092:9092 -e KAFKA_BROKER_ID=1 -e KAFKA_ZOOKEEPER_CONNECT='zookeeper:2181' -e KAFKA_LISTENER_SECURITY_PROTOCOL_MAP=PLAINTEXT:PLAINTEXT,PLAINTEXT_INTERNAL:PLAINTEXT -e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://localhost:9092,PLAINTEXT_INTERNAL://broker:29092 -e KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR=1 -e KAFKA_TRANSACTION_STATE_LOG_MIN_ISR=1 -e KAFKA_TRANSACTION_STATE_LOG_REPLICATION_FACTOR=1 confluentinc/cp-kafka:7.0.1

docker run -it --name analise-sentimentos-consumer-container --network minharede analise-sentimentos-consumer

Note que estamos rodando o consumidor em modo iterativo para ver as mensagens sendo consumidas. Será útil para a demonstração que faremos. No entanto, essa configuração acrescenta uma demora considerável na execução.

Vamos adicionar mais essa fonte de métricas ao Prometheus. É o mesmo que fizemos antes. Altere o arquivo prometheus.yml dentro da pasta prometheus:

global:
  scrape_interval: 5s  # mesma frequência do exporter

scrape_configs:
  - job_name: 'docker-exporter'
    static_configs:
      - targets: ['docker-exporter-sidecar:8000']
  - job_name: 'http-api-classificacao-produtos-container-unico'
    static_configs:
      - targets: ['http-api-classificacao-produtos-container-unico-container']
+  - job_name: 'analise-sentimentos-consumer'
+    static_configs:
+      - targets: ['analise-sentimentos-consumer-container:8000']

Reconstrua a imagem e suba-o novamente:

docker build -t meu-prometheus .

docker run -d \
  --name prometheus \
  --network minharede \
  -p 9090:9090 \
  meu-prometheus

Agora adicione mais um painel ao mesmo dashboard do Grafana:

rate(sentiment_classifier_model_inference_seconds_sum[1m]) / rate(sentiment_classifier_model_inference_seconds_count[1m])

Title: Latência do classificador de sentimentos (Média)
Unit: seconds (s)
Visualization: Time series

Para testar essa nova métrica, você pode usar o chatbot, mas aí caímos no problema de gerar testes manualmente. Vamos fazer uma abordagem diferente.

Vá até a pasta k6 e crie um arquivo requirements.txt:

kafka-python==2.3.0
fastapi==0.135.1
uvicorn==0.42.0

Agora crie um arquivo app.py:

from fastapi import FastAPI, Request
from kafka import KafkaProducer
import json
import os

# --- Configurações Kafka via env vars ---
KAFKA_BROKER = os.getenv("KAFKA_BROKER", "broker:29092")
KAFKA_TOPIC = os.getenv("KAFKA_TOPIC", "chatbot")

# --- Inicializa Producer ---
producer = KafkaProducer(
    bootstrap_servers=KAFKA_BROKER,
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

app = FastAPI(title="Kafka Producer Proxy")

# --- Endpoint HTTP para produzir mensagens no Kafka ---
@app.post("/publish")
async def publish(request: Request):
    msg = await request.json()
    producer.send(KAFKA_TOPIC, msg)
    producer.flush()  # força envio imediato
    return {"status": "ok", "topic": KAFKA_TOPIC}

Crie um Dockerfile

FROM python:3.13.5-slim

WORKDIR /app

COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

COPY app.py .

EXPOSE 8000

CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

Basta agora construir a imagem e executar o container:

docker build -t kafka-proxy .
docker run -d --name kafka-proxy-container --network minharede kafka-proxy

Ainda na mesma pasta, crie o arquivo load-test-kafka.js:

import http from 'k6/http';
import { sleep } from 'k6';

export const options = {
    vus: 100,
    duration: '2m',
};

const jsonContentType = { headers: { 'Content-Type': 'application/json' } };

const payloads = [
    {
        sessao: "sessao001",
        nome: "Miguel",
        pergunta: `Oi, tudo bem? Eu estava pensando sobre como os últimos acontecimentos na cidade têm afetado a vida das pessoas. 
        É incrível notar como pequenas decisões podem desencadear efeitos enormes, desde o comércio local até a dinâmica social nas ruas. 
        Além disso, quero explorar diferentes cenários e hipóteses para entender melhor as consequências a longo prazo. 
        Você poderia detalhar mais sobre isso? Estou curioso para ver se há padrões que se repetem em situações parecidas.`,
        resposta: "Olá, Miguel! É realmente fascinante observar como eventos aparentemente pequenos podem ter um impacto significativo em uma comunidade."
    },
    {
        sessao: "sessao002",
        nome: "Ana",
        pergunta: `Olá! Preciso de ajuda para analisar um conjunto de dados bem grande que estou processando. 
        São registros de usuários, transações financeiras e interações sociais. 
        Quero identificar tendências, outliers, comportamentos inesperados e correlações que não sejam óbvias à primeira vista. 
        Seria interessante também simular diferentes estratégias de otimização e medir impacto potencial. 
        Você consegue me ajudar com isso passo a passo?`,
        resposta: "Oi, Ana! Claro, posso te ajudar a analisar esses dados. Vamos começar identificando as principais métricas e visualizando os dados para encontrar padrões e insights."
    },
    {
        sessao: "sessao003",
        nome: "Lucas",
        pergunta: `Bom dia! Recentemente participei de uma série de debates sobre tecnologia, ética e impacto social. 
        Durante essas discussões, surgiram diversos pontos de vista conflitantes sobre privacidade, inteligência artificial e responsabilidade corporativa. 
        Gostaria de consolidar essas ideias em um resumo bem estruturado, incluindo exemplos práticos, possíveis soluções e riscos associados. 
        Também quero explorar como diferentes políticas podem influenciar o comportamento das pessoas e empresas. 
        Pode gerar um insight detalhado sobre isso?`,
        resposta: "Olá, Lucas! É interessante ver como diferentes perspectivas podem enriquecer nossa compreensão dos impactos da tecnologia na sociedade."
    }
];

export default function () {

    http.batch([
        ['POST', 'http://kafka-proxy-container:8000/publish', JSON.stringify(payloads[0]), jsonContentType ],
        ['POST', 'http://kafka-proxy-container:8000/publish', JSON.stringify(payloads[1]), jsonContentType ],
        ['POST', 'http://kafka-proxy-container:8000/publish', JSON.stringify(payloads[2]), jsonContentType ],
    ]);

    sleep(0.01);
}

Para executar, basta rodar:

docker run --rm -i --network minharede grafana/k6 run - < load-test-kafka.js

Aguarde as métricas serem exibidas. Uma curiosidade desse teste é que o consumidor irá continuar executando mesmo depois que o K6 terminar seu trabalho. Isso acontece porque essa solução é baseada em uma comunicação assíncrona, ou seja, o K6 apenas enfileira (via proxy) as requisições, que serão tratadas posteriormente. Esse comportamento é característico de sistemas assíncronos: o produtor (k6) apenas envia mensagens para a fila, enquanto o consumidor processa no seu próprio ritmo. Isso desacopla geração e processamento, mas também pode introduzir latência adicional.

Para ver isso acontecendo, basta abrir o dashboard que criamos anteriormente e ver como a CPU do container que analisa sentimentos continua ativa mesmo depois que o K6 termina seu trabalho, o mesmo acontecendo com o broker, que fica entregando as mensagens.

Note também como a latência do modelo BERT é bem maior, na média, do que a latência do modelo estatístico mais simples que classifica produtos.

Para finalizar este exemplo, exporte o dashboard como JSON e inclua-o no provisionamento do Grafana como fizemos antes.

Considerações Finais

Ao longo deste capítulo, demos um passo importante ao sair do monitoramento puramente de infraestrutura e avançar para a instrumentação da aplicação, capturando métricas diretamente relacionadas ao comportamento do modelo. A medição da latência de inferência, por exemplo, já nos permite compreender melhor o custo computacional do modelo e comparar diferentes abordagens — como vimos ao contrastar um classificador simples com um modelo baseado em BERT.

No entanto, é fundamental entender que essa métrica, por si só, ainda representa apenas uma parte da história. Em sistemas reais, especialmente aqueles baseados em arquiteturas distribuídas e assíncronas, o tempo de inferência é apenas um dos componentes do tempo total percebido pelo usuário ou pelo sistema.

Por isso, é comum que soluções mais completas de monitoramento incluam outras dimensões importantes. Um exemplo é o tamanho da fila (lag do Kafka), que indica quantas mensagens ainda aguardam processamento. Mesmo que o modelo seja rápido, um aumento no lag pode sinalizar gargalos no consumo ou picos de demanda que o sistema não está conseguindo absorver em tempo real.

Outra métrica essencial é o tempo total de processamento end-to-end, que considera toda a jornada da requisição: desde o momento em que ela é gerada até a entrega do resultado final. Essa visão é particularmente importante porque reflete a experiência real do sistema como um todo, incorporando latências de rede, filas, proxies e processamento.

Além disso, acompanhar a taxa de produção versus taxa de consumo permite avaliar o equilíbrio do sistema. Quando a taxa de entrada de dados supera consistentemente a capacidade de processamento, cria-se um acúmulo progressivo de mensagens — o que, inevitavelmente, leva ao aumento de latência e possível degradação do serviço.

Essas métricas adicionais reforçam um ponto central: observabilidade não é apenas coletar dados, mas compreender o sistema em sua totalidade. Em aplicações de Machine Learning, isso significa ir além da inferência isolada e considerar o comportamento do pipeline como um todo, incluindo suas interações com outros componentes da arquitetura.

À medida que evoluímos nossas práticas de monitoramento, passamos a construir não apenas dashboards mais completos, mas também uma visão mais fiel do funcionamento do sistema em produção — condição essencial para tomar decisões informadas, diagnosticar problemas com precisão e garantir a qualidade contínua das soluções baseadas em Machine Learning.

Nota sobre o desenvolvimento do material

O conteúdo desta seção contou com o apoio do ChatGPT como ferramenta auxiliar na estruturação de explicações, revisão de conceitos e refinamento técnico. Todas as decisões de conteúdo, exemplos e direcionamento didático foram conduzidas pelo autor.

Anterior4.14 Monitorando Contêineres Docker com Prometheus e Grafana Próximo4.16 Monitoramento Específico de Machine Learning

Atualizado há 3 minutos

hashtagCriando um dashboard

hashtagTestando com o K6

hashtagConsiderações Finais

hashtagNota sobre o desenvolvimento do material

Criando um dashboard

Testando com o K6

Considerações Finais

Nota sobre o desenvolvimento do material