Implantação da Plataforma de Aprendizado Federado da IBM e Comparação de Algoritmos de Agregação: Um Estudo de Caso Usando o Conjunto de Dados MNIST

Benjamin Grando Moreira

7 meses atrás

Você já se perguntou como podemos treinar modelos de inteligência artificial poderosos sem comprometer a privacidade de dados sensíveis? Em um mundo cada vez mais digital, essa é uma questão crucial! É exatamente isso que o Aprendizado Federado (FL) busca resolver, e um artigo super interessante apresentado recentemente na 34ª BRAZILIAN CONFERENCE ON INTELLIGENT SYSTEMS (BRACIS) em 2024 nos traz insights sobre o tema. Intitulado “Deployment of IBM Federated Learning Platform and Aggregation Algorithm Comparison: A Case Study Using the MNIST Dataset“, este estudo foi publicado na série Lecture Notes in Computer Science da Springer Nature.

Schulz, H.H., Moreira, B.G. (2025). Deployment of IBM Federated Learning Platform and Aggregation Algorithm Comparison: A Case Study Using the MNIST Dataset. In: Paes, A., Verri, F.A.N. (eds) Intelligent Systems. BRACIS 2024. Lecture Notes in Computer Science(), vol 15412. Springer, Cham. https://doi.org/10.1007/978-3-031-79029-4_22

O Dilema dos Dados e a Solução do Aprendizado Federado (FL)

Tradicionalmente, a inteligência artificial funciona melhor com montanhas de dados centralizados. Mas isso vem com um risco enorme: a privacidade. Vazamentos podem expor informações pessoais ou empresariais críticas. É aí que o FL brilha!

Imagine o seguinte: em vez de enviar todos os seus dados para um servidor central, o modelo de IA vai até os dados. Em FL, os modelos são treinados localmente em cada dispositivo ou servidor (pense em seu celular, um hospital, ou uma fábrica), usando os dados que já estão lá. Apenas as atualizações do modelo (e não os dados brutos!) são enviadas de volta para um servidor central, que as combina para criar um modelo global mais inteligente. Assim, a privacidade é preservada, pois seus dados nunca saem do lugar!

A Pesquisa em Foco: IBM FL e o MNIST Dataset

O trabalho é resultado do TCC de Hans Herbert Schulz (acesso o TCC completo em Decentralized brilliance: deploying a federated learning platform and evaluating aggregation algorithms) e focado na plataforma de Aprendizado Federado da IBM. Foram implantados contêineres Docker em dois clientes, e o objetivo principal era testar sua funcionalidade e comparar o desempenho de duas das estratégias de FL mais comuns:

Federated Stochastic Gradient Descent (FedSGD)
Federated Averaging (FedAvg)

Para isso, foi utilizado o famoso conjunto de dados MNIST, que consiste em imagens de dígitos manuscritos e muito utilizado para testar algoritmos de reconhecimento de padrões.

Os resultados foram super esclarecedores:

Desempenho Sólido: Ambas as estratégias, FedAvg e FedSGD, alcançaram uma precisão satisfatória e bons índices de F1 Score, provando que a plataforma funciona bem para classificação de imagens.
Consumo de Recursos: Eles monitoraram o uso de CPU, RAM e o tráfego de rede. Notaram picos de uso da CPU durante o treinamento e um comportamento interessante no tráfego de rede, que diminuía à medida que o modelo ficava mais preciso. A preocupação com o uso de recursos é válida, especialmente se pensarmos em implantar isso em dispositivos de borda (como um Raspberry Pi), que têm capacidades limitadas.
FedAvg na Frente! A grande sacada foi a comparação entre as duas estratégias. Embora ambas funcionem, o FedAvg se mostrou ligeiramente mais eficiente, especialmente em termos de tráfego de rede e tempo de treinamento. O FedSGD, por exemplo, consumiu até 70% mais largura de banda e levou quase dois minutos a mais para concluir o treinamento em um teste com apenas dois clientes. Isso pode não parecer muito, mas imagine em um cenário real com dezenas ou centenas de dispositivos – essa diferença se multiplica e pode ser crítica!

Por Que Isso Importa?

Este estudo reforça o potencial do Aprendizado Federado para aplicações práticas, especialmente em indústrias que lidam com grandes volumes de dados sensíveis. A capacidade de treinar modelos de forma descentralizada, garantindo a privacidade e segurança dos dados, é um divisor de águas. Empresas podem usar dados de múltiplas filiais sem quebrar regulamentações de privacidade, otimizando a manutenção preditiva e reduzindo custos.