Como o Red Hat OpenShift ajuda no desenvolvimento da ciência moderna ~ Moprius

Plataforma de software criada para empresas acaba ajudando a descobrir genes, prever o clima e treinar inteligências artificiais

A infraestrutura em um laboratório de pesquisas se torna muito importante para novas descobertas. Nunca sabemos quais software, hardware, infraestrutura por trás de uma pesquisa. Os milhares de terabytes de dados processados constantemente, rodando em continuamente o tempo todo e ajudando a calcular e visualizar experimentos para uma nova pesquisa. E isso economizando tempo para o pesquisador

Aqui vamos falar um pouco de como o OpenShift da Red Hat consegue dar soluções para a ciência moderna, facilitando muito pesquisas atuais.

O que é o OpenShift

Tecnicamente, o OpenShift é uma plataforma baseada em Kubernetes, o sistema mais usado hoje para orquestrar containers. Em português bem direto:

Container é um “pacote” que leva junto o programa e tudo que ele precisa para rodar.
Kubernetes é o “cérebro” que distribui esses containers por vários servidores.
OpenShift é um “Kubernetes turbinado”, com segurança, painel gráfico, ferramentas de desenvolvimento e gestão prontas.

Para o cientista, isso se traduz em algo simples:

“Eu clico ou rodo um comando e o sistema cuida do resto: onde vai rodar, quanto recurso vai usar, como escalar, como manter tudo organizado.”

Por que laboratórios se interessaram por uma ferramenta corporativa?

O OpenShift nasceu para resolver problemas de empresas: muitos sistemas, muitos times, muita coisa rodando ao mesmo tempo. A ciência moderna vive um cenário muito parecido:

volumes gigantescos de dados
equipes multidisciplinares (biólogos, físicos, médicos, cientistas de dados)
necessidade de repetir experimentos com precisão
uso intenso de nuvem, servidores locais e, cada vez mais, GPUs

Alguns pontos explicam a adoção em pesquisa:

Reprodutibilidade
O experimento vira um container. Esse “pacote” é imutável: mesma versão de Python, mesmas bibliotecas, mesmo sistema. Outro laboratório pode rodar o mesmo container e comparar resultados com muito mais confiança.
Escala
Analisar o genoma de uma pessoa é uma tarefa pesada. De uma população inteira, então, nem se fala. Com OpenShift, é possível disparar dezenas ou centenas de análises em paralelo, cada uma em seu container.
Compartilhamento controlado
Cada grupo ganha seu “projeto” dentro do cluster. Há isolamento, regras de acesso, quotas de recurso. Times distintos trabalham no mesmo ambiente físico sem bagunça.
Nuvem e datacenter jogando juntos
OpenShift roda em servidores locais e em nuvens públicas. Um laboratório pode manter um cluster pequeno internamente e “esticar” para a nuvem em momentos de pico.

Genômica: o laboratório que virou fábrica de dados

Na bioinformática o cenário é claro: máquinas de sequenciamento geram arquivos gigantescos com informações de DNA e RNA. Nada disso é útil antes de passar por uma bateria de programas:

limpeza de leituras
alinhamento ao genoma de referência
detecção de variantes
análises estatísticas

Cada etapa costuma ser um software diferente, com dependências próprias e versões temperamentais. Em vez de instalar tudo manualmente em cada servidor, equipes empacotam o pipeline em containers.

No OpenShift, esse pipeline vira um fluxo de trabalho automatizado:
cada etapa aparece como um conjunto de containers, o cluster distribui o trabalho e, se for preciso analisar mais amostras, basta aumentar o número de réplicas. O pesquisador acompanha tudo num painel web, como se estivesse vendo uma linha de produção.

Hospitais que trabalham com diagnóstico por genômica usam isso para reduzir o tempo entre a coleta do material e um laudo que possa ajudar o médico na tomada de decisão.

Clima, meio ambiente e o aperto do prazo

Prever chuva, ondas de calor ou comportamento de um furacão exige modelos matemáticos sofisticados. Tradicionalmente, isso rodava em supercomputadores de uso difícil e interfaces pouco amigáveis.

Com containers e OpenShift, simulações climáticas podem ser empacotadas e distribuídas com mais flexibilidade:

grupos testam cenários com parâmetros diferentes
rodadas de simulação rodam em paralelo
resultados são armazenados de forma organizada para análise posterior

Institutos ambientais conseguem, por exemplo, disparar dezenas de simulações de uma mesma região, mudando variáveis como desmatamento ou emissões de poluentes, e comparar cenários com agilidade.

Física, astronomia e o universo em pedacinhos

Colisores de partículas e grandes telescópios produzem dados em volume que não caberia nem em todos os HDs de um departamento de física. Esses dados precisam ser filtrados, reconstruídos, analisados, cruzados com simulações.

A lógica se repete: cada etapa vira um container, o OpenShift orquestra os recursos, pesquisadores usam notebooks Jupyter dentro do cluster para explorar resultados.

Um físico pode abrir o navegador, conectar-se ao ambiente de análise e ter acesso ao mesmo código e ferramentas em qualquer lugar do mundo, desde que tenha permissão. A infraestrutura complexa fica escondida atrás de uma interface web.

Inteligência artificial científica

Redes neurais passaram a participar do dia a dia de várias áreas:

identificar tumores em exames de imagem
classificar galáxias em grandes levantamentos astronômicos
prever propriedades de moléculas na busca por novos fármacos
analisar séries temporais climáticas

OpenShift entra aí como plataforma para:

disponibilizar notebooks Jupyter para pesquisadores
treinar modelos em GPUs do cluster
versionar modelos e dados
colocar modelos em produção, respondendo a outros sistemas

Um time pode, por exemplo, desenvolver um modelo de IA que detecta padrões suspeitos em tomografias. O treinamento ocorre em containers com GPU. Depois, o modelo já treinado vira outro container, exposto como serviço para um sistema hospitalar interno.

O dia de trabalho de um pesquisador num mundo com OpenShift

Em vez de “mandar e-mail para o pessoal da TI pedindo servidor”, o roteiro tende a ser outro:

O cientista acessa um portal interno baseado em OpenShift.
Cria um novo projeto ou entra no projeto do grupo.
Escolhe um ambiente pronto: Jupyter com Python, RStudio, ou um container específico do laboratório.
Sobe os dados ou aponta para o local onde eles estão no storage do cluster.
Executa o pipeline, script ou treinamento de modelo.
Acompanha uso de CPU, memória, GPU e tempo de execução pela interface.
Se precisar repetir daqui a seis meses, o ambiente estará idêntico, porque o container não mudou.

TI e ciência deixam de disputar o mesmo computador e passam a colaborar na mesma plataforma.

O que isso significa para quem está de fora

Para quem vê de fora, OpenShift é só mais um nome no meio de tantos. Dentro de universidades, centros de pesquisa e hospitais, a história muda: é uma peça de infraestrutura que ajuda a transformar código em descoberta, ideia em experimento reprodutível, teste isolado em colaboração global.

Menu