Por dentro de Machine Learning

Quando se diz que “a máquina aprendeu sozinha”, isso parece quase uma frase de ficção científica. Só que, na prática, é exatamente isso que está acontecendo em coisas bem concretas: o filtro de spam do e-mail, o sistema que sugere filmes, o carro que freia sozinho, o chatbot que conversa com você. Tudo isso tem um mesmo coração tecnológico: machine learning, ou aprendizado de máquina.

Mas o que exatamente significa uma máquina “aprender”? E como isso se diferencia de simplesmente programar um monte de regras “se acontecer X, faça Y”?

O que é, de fato, machine learning?

Machine learning é um ramo da inteligência artificial focado em algoritmos que conseguem reconhecer padrões em dados e, a partir disso, fazer previsões ou tomar decisões sem que alguém precise programar todas as regras explicitamente.

Em vez de escrever um código cheio de regras do tipo “se tal coisa acontecer, então faça tal outra”, o que se faz é:

escolher um tipo de modelo (o “jeito” matemático de olhar para os dados)
mostrar muitos exemplos desse problema para o modelo (o chamado conjunto de treinamento)
ajustar o modelo até que ele consiga acertar bem nesses exemplos
depois, colocar esse modelo para trabalhar em dados novos, do mundo real

Esse processo de aprendizado em cima de dados é o que faz o machine learning ser a base da maioria dos sistemas de IA atuais: modelos de previsão, carros autônomos, grandes modelos de linguagem (LLMs), ferramentas de IA generativa, sistemas de recomendação em plataformas de streaming e por aí vai.

O objetivo principal não é “decorar” o conjunto de treinamento. O grande desafio é generalizar: ir bem em dados que o modelo nunca viu antes. Treinar é um meio; o fim é acertar no desconhecido. Quando o modelo sai do laboratório e começa a ser usado de verdade, essa etapa de uso recebe o nome de inferência.

IA, machine learning e um termostato simples

Muitos misturam “IA” e “machine learning” como se fossem sinônimos, mas não são.

Inteligência artificial é qualquer sistema que toma decisões ou faz previsões sem intervenção humana o tempo todo, usando informação de entrada.
Machine learning é um subconjunto disso: são os métodos em que a lógica não é explicitamente programada, mas aprendida a partir dos dados.

Um exemplo simples de IA que não usa machine learning é um termostato. Ele pode funcionar com regras bem diretas, por exemplo:

SE temperatura do ambiente < 21 ºC, LIGAR o aquecedor
SE temperatura do ambiente > 24 ºC, LIGAR o ar-condicionado

É um sistema de decisão sem ninguém apertar botão o tempo todo. Isso já é uma forma de IA baseada em regras fixas, escritas à mão. Machine learning entra quando essas regras não são tão óbvias.

Imagine filtrar spam de e-mail. Em um sistema baseado em regras, alguém teria de escrever manualmente uma grande lista de critérios: “se tiver mais de X links”, “se citar muito determinada palavra”, “se vier de tal domínio” e assim por diante. Isso tende a ficar frágil, difícil de manter e cheio de exceções.

Com machine learning, o raciocínio muda, em vez de escrever as regras, alguém coleta milhares (ou milhões) de e-mails rotulados como “spam” ou “não spam”, escolhe um algoritmo adequado, alimenta o modelo com esses exemplos e deixa o treinamento ajustar automaticamente os parâmetros. No final, o modelo aprende, de forma implícita, “o que tem cara de spam”.

À medida que as tarefas vão ficando mais complexas, os modelos baseados em regras duras vão se quebrando. Nem sempre é possível listar manualmente tudo o que importa. É nesse ponto que machine learning se torna muito mais flexível e escalável.

Como a máquina “enxerga” os dados?

Apesar de toda a aura de mistério, machine learning é matemática aplicada. Para que um modelo “entenda” um dado, esse dado precisa ser traduzido para números.

Cada exemplo é transformado em um vetor, uma lista de valores numéricos que representam características relevantes daquele exemplo, as chamadas features.

Em dados financeiros, isso pode ser algo direto: preço, volume, data.
Em coordenadas geográficas, também: latitude, longitude, altitude.

O desafio começa quando o dado não é naturalmente numérico:

Um texto de e-mail
Uma foto
Um grafo de conexões de uma rede social
O comportamento de um usuário dentro de um app

Aí entra a engenharia de atributos (feature engineering), que é o conjunto de técnicas para transformar esses dados brutos em algo que o modelo consegue usar:

Seleção de atributos (feature selection): escolher quais aspectos dos dados são relevantes.
Extração de atributos (feature extraction): criar representações mais compactas que preservem o que importa.

Deep learning muda bastante tudo isso, porque muitas redes neurais conseguem receber dados relativamente brutos (texto, imagens) e “aprender sozinhas” quais abstrações são importantes nas camadas internas. Isso torna o processo mais escalável, mas também costuma deixar o modelo menos transparente: fica difícil explicar, em detalhes, o porquê de certas decisões.

Parâmetros, otimização e o exemplo da casa

Para deixar menos abstrato, imagine um problema comum: prever o preço de venda de um imóvel.

Suponha que alguém construa um modelo simples, uma regressão linear, que considera três variáveis:

metragem do imóvel
número de quartos
idade da casa

Cada casa é transformada num vetor, por exemplo:
[metragem, quartos, idade] = [1900, 4, 30]

O modelo pode ter uma função do tipo:

Preço = (A × metragem) + (B × número de quartos) – (C × idade) + Preço_base

Os valores A, B, C e o Preço_base são os parâmetros do modelo. Ajustar esses parâmetros é o coração do processo de aprendizado. O que se quer é encontrar aqueles valores que fazem o modelo acertar melhor os preços, em média, no conjunto de treinamento.

Em casos reais, o número de variáveis e de parâmetros explode: dezenas, centenas, milhares ou milhões de parâmetros. Mesmo assim, a ideia central continua a mesma: ajustar esses valores para que as previsões fiquem mais próximas da realidade.

Para medir “o quão ruim” o modelo está, usa-se uma função de perda (loss function), que compara a previsão com o valor real. O treinamento tenta minimizar essa perda, ajustando os parâmetros de forma iterativa com algoritmos de otimização, como variantes de gradiente descendente.

Três grandes “jeitos” de aprender: supervisionado, não supervisionado e por reforço

De forma bem ampla, o aprendizado de máquina costuma ser agrupado em três paradigmas:

Aprendizado supervisionado
Aprendizado não supervisionado
Aprendizado por reforço

E, em muitos casos práticos, modelos combinam mais de uma dessas abordagens ao longo do ciclo de vida.

Aprendizado supervisionado

Aqui, o modelo aprende a partir de exemplos em que já se conhece a resposta “correta” para cada entrada. Esse rótulo verdadeiro é a chamada ground truth.

Dois grandes tipos de tarefa aparecem nesse paradigma:

Regressão: prever valores contínuos (preço, tempo, temperatura).
Classificação: escolher uma categoria ou decisão (spam / não spam, doença A / doença B / saudável, “aprovar” ou “negar” um crédito).

Algoritmos tradicionais de regressão incluem regressão linear e variantes mais sofisticadas; para classificação, há métodos como máquinas de vetor de suporte (SVM), Naïve Bayes, regressão logística etc.

O processo é algo assim:

O modelo recebe um lote de exemplos com rótulos.
Faz previsões para cada exemplo.
A função de perda mede a diferença entre previsão e rótulo.
Um algoritmo de otimização ajusta os parâmetros para diminuir essa diferença.
O ciclo se repete até chegar a um desempenho aceitável.

Historicamente, associava-se “supervisionado” apenas a dados rotulados manualmente. Hoje, o termo ganhou um sentido um pouco mais amplo: supervisionar é fornecer algum tipo de sinal de “correto”, seja ele produzido por humanos, por outro modelo ou extraído dos próprios dados.

Daí surgem duas variações importantes:

Self-supervised learning

Rotular dados à mão é caro e demorado, especialmente quando se trata de textos longos, imagens complexas ou vídeos.

No self-supervised learning, o próprio dado bruto gera a supervisão. Um exemplo clássico é o de autoencoders: o modelo recebe uma entrada, comprime essa informação em uma representação mais compacta e depois tenta reconstruir o original. O objetivo é minimizar o erro de reconstrução, usando o dado original como “gabarito”.

Grandes modelos de linguagem também se apoiam fortemente nessa ideia: recebem textos com algumas palavras mascaradas e são treinados para adivinhar as palavras ocultas. O próprio texto fornece a resposta correta.

Semi-supervised learning

Já o semi-supervised learning combina dados rotulados e não rotulados.

Em vez de ignorar completamente os exemplos sem rótulo, o modelo tenta se aproveitar deles. Técnicas diversas usam o pouco que se sabe (os rótulos disponíveis) para inferir algo sobre o restante dos dados, incorporando essas pistas no treinamento supervisionado. Isso é útil quando rotular 100% do conjunto é inviável.

Aprendizado não supervisionado

No aprendizado não supervisionado, não há “gabarito”. O modelo não recebe instruções sobre qual é a saída correta; ele precisa descobrir, por conta própria, padrões, grupos, correlações.

Algumas tarefas típicas:

Clusterização: agrupar dados semelhantes em “clusters”. Isso pode servir para segmentar clientes, detectar padrões suspeitos em transações financeiras ou agrupar documentos parecidos.
Associação: achar correlações, como “clientes que compram X tendem a comprar Y”. Esse tipo de técnica aparece em sistemas de recomendação.
Redução de dimensionalidade: condensar dados muito complexos (com centenas de variáveis) em representações mais compactas que preservem o que é mais importante. Isso ajuda tanto na visualização quanto no pré-processamento.

Métodos como k-means, modelos de mistura gaussiana, PCA, autoencoders e t-SNE são exemplos desse universo.

Como não há rótulo, o foco deixa de ser “acertar o gabarito” e passa a ser configurar bem o processo de aprendizado, escolher quantos clusters faz sentido, ajustar taxa de aprendizado, decidir como normalizar os dados, entre outros hiperparâmetros. Em certo sentido, os modelos “se organizam sozinhos”, mas só funcionam bem quando a base de dados e as configurações estão bem pensadas.

Aprendizado por reforço (reinforcement learning)

Reinforcement learning (RL) trabalha com uma lógica diferente. Em vez de exemplos com entradas e saídas independentes, o modelo é visto como um agente que interage com um ambiente ao longo do tempo.

A ideia é parecida com treinar um animal ou uma pessoa em uma tarefa: a cada ação, vem uma consequência, que pode ser positiva, negativa ou neutra. O agente tenta aprender uma estratégia que maximize o recompensa acumulada.

Os elementos básicos são:

Estado: o que o agente “enxerga” naquele momento (posição em um jogo, dados de sensores de um robô, trecho já gerado de um texto).
Ação: o conjunto de opções disponíveis naquele estado (movimentar para esquerda/direita, acelerar/frear, produzir uma próxima palavra).
Recompensa: um número que indica se a ação foi boa ou ruim, definida por regras, função de recompensa ou outro modelo.
Política: o “modo de pensar” do agente, isto é, uma função que, dado um estado, escolhe uma ação.

Dá para treinar diretamente essa política (métodos policy-based, como PPO), ou treinar uma função de valor que estima o quão bom é estar em cada estado (métodos value-based, como Q-learning), ou ainda combinar as duas coisas (métodos actor-critic).

Em deep RL, essa política é representada por uma rede neural. É esse tipo de abordagem que aparece em robótica, em jogos complexos e em técnicas como o reinforcement learning from human feedback (RLHF), usadas para refinar o comportamento de grandes modelos de linguagem.

Deep learning: redes neurais e a ideia de “aproximar qualquer coisa”

Dentro do universo de machine learning, o deep learning se destaca. Ele se baseia em redes neurais artificiais com muitas camadas – por isso o “deep”.

Numa visão simplificada:

cada neurônio faz uma operação matemática (a ativação)
o resultado dessa ativação vai para os neurônios da próxima camada
esse processo se repete até a camada final, que gera a previsão

O ponto-chave é que essas ativações são não lineares, o que permite modelar padrões muito complexos. Cada conexão entre neurônios tem um peso, que multiplicará o sinal, e cada neurônio tem um viés, um valor extra somado. Pesos e vieses são os parâmetros a serem ajustados no treinamento.

O algoritmo de backpropagation calcula o quanto cada peso contribuiu para o erro total (a perda) e ajusta esses pesos via gradiente descendente. Quando falamos de modelos modernos, estamos falando de milhões ou bilhões de pesos sendo atualizados o tempo todo.

Daí vem a ideia famosa de que redes neurais são “aproximadores universais”: existe, teoricamente, uma configuração de pesos capaz de aproximar qualquer função que se queira. Na prática, isso não significa que qualquer problema será resolvido facilmente; treinar um modelo bom o bastante ainda depende de muito dado, muito poder computacional e escolhas de arquitetura bem feitas.

Arquiteturas importantes: CNNs, RNNs, transformers, Mamba

Ao longo dos anos, surgiram várias arquiteturas de rede neural, cada uma explorando uma ideia específica.

CNNs (Convolutional Neural Networks):
Trazem camadas convolucionais que usam filtros deslizantes para extrair padrões locais. São muito usadas em visão computacional: reconhecimento de imagens, detecção de objetos, segmentação, mas também aparecem em áudio e outras áreas.
RNNs (Recurrent Neural Networks):
Foram projetadas para lidar com sequências. Em vez de olhar para cada entrada isolada, elas mantêm um estado interno que carrega informações sobre o que veio antes. Isso permitiu, por exemplo, trabalhar com texto, séries temporais e fala de forma mais contextual.
Transformers:
Introduzidos em 2017, transformaram o campo. Baseiam-se em um mecanismo de atenção que permite ao modelo focar nas partes mais relevantes da entrada em cada momento. Embora tenham sido criados para texto, acabaram dominando várias modalidades de dados. São a base dos LLMs e de boa parte da IA generativa atual.
Mamba models:
Uma arquitetura mais recente, baseada em variações de modelos de espaço de estado (SSMs). Assim como os transformers, Mamba busca maneiras eficientes de priorizar as informações mais relevantes ao longo de sequências longas, e vem sendo explorada como alternativa em tarefas de linguagem.

Todas essas variações continuam dentro do guarda-chuva do deep learning, mas enfatizam maneiras diferentes de lidar com estrutura, contexto e escala.

Onde o machine learning aparece na prática

Quase toda grande área de aplicação de IA hoje tem machine learning no centro. Alguns exemplos:

Visão computacional:
Sistemas que “veem” imagens e vídeos, como diagnósticos médicos por imagem, inspeção de qualidade em fábricas, vigilância inteligente, reconhecimento facial, carros autônomos.
Processamento de linguagem natural (NLP):
Chatbots, tradução automática, resumo de textos, análise de sentimento, sistemas de atendimento, assistentes pessoais e, claro, grandes modelos de linguagem que geram texto, código ou explicações.
Séries temporais e previsão:
Modelos que olham para dados ao longo do tempo para detectar anomalias, prever vendas, antecipar falhas em máquinas, analisar mercado financeiro.
Geração de imagens e conteúdo:
Modelos generativos, como difusão, VAEs e GANs, criam imagens novas a partir de padrões aprendidos no treinamento. Isso aparece em criação artística, design, simulações e até em ferramentas de edição avançada.

Ao redor de tudo isso, existe uma disciplina inteira dedicada ao “como fazer isso funcionar no mundo real”: MLOps (Machine Learning Operations).

MLOps trata o ciclo de vida de modelos como uma espécie de linha de montagem:

cuidar da coleta, limpeza e preparação de dados
escolher modelos e arquiteturas adequadas
treinar e validar com métricas bem definidas
implantar o modelo em produção
monitorar desempenho, detectar drift, ajustar quando o mundo muda
garantir governança, segurança e conformidade regulatória

Não basta treinar um modelo bom, é preciso mantê-lo útil e confiável ao longo do tempo.

Ferramentas, linguagens e bibliotecas

Na prática, o ecossistema de machine learning é fortemente baseado em código aberto e gira em torno de algumas tecnologias centrais.

Para deep learning: PyTorch, TensorFlow, Keras, bibliotecas como Transformers (da Hugging Face).
Para machine learning mais tradicional e análise de dados: Pandas, Scikit-learn, XGBoost, NumPy, SciPy, Matplotlib, entre outras.

Quase tudo conversa com Python, que virou uma espécie de língua franca da área por ser flexível, ter sintaxe simples e um número enorme de bibliotecas.

Grandes empresas de tecnologia mantêm tutoriais, exemplos e coleções de código para diferentes níveis, de iniciantes a especialistas, ajudando a diminuir a barreira de entrada.

Um campo poderoso, mas que pede responsabilidade

Machine learning saiu dos laboratórios de pesquisa e passou a rodar em celulares, hospitais, carros, fazendas, redes de energia e em praticamente qualquer setor que lide com dados em volume. A mesma técnica que ajuda a detectar doenças também pode ser usada para manipular opinião pública, o algoritmo que gera imagens incríveis pode ser usado para desinformação sofisticada.

No centro de tudo ainda está uma ideia simples: aprender padrões a partir de dados e aplicar o que foi aprendido a novos casos. O impacto real depende das escolhas humanas: que dados usar, que objetivo otimizar, como medir sucesso, que limites impor, que mecanismos de supervisão criar.

Mais do que uma caixa-preta mágica, machine learning é um conjunto de ferramentas matemáticas e computacionais poderoso, que pode ser usado de modos muito diferentes. A discussão que importa não é apenas “o que os modelos conseguem fazer”, mas “como, onde e por que estamos colocando esses modelos para decidir coisas no nosso lugar”.

Menu