Comunicados Técnicos

Manutenção e indisponibilidade do ambiente LOVELACE - 09/janeiro/2023

Fomos informados pela empresa Dell sobre a necessidade da realização de manutenção preventiva bastante extensa, com substituição de componentes de hardware em todos os 65 nós de processamento do ambiente Ada Lovelace.

Por se tratar de uma manutenção que pode ter seu processo alterado em função da complexidade, a mesma será realizada sem o desligamento prévio de todos os nós do ambiente. Os nós serão desativados, um a um, à medida que as manutenções avancem. Esta estratégia será adotada como alternativa ao desligamento de todo o cluster por um longo período, com o objetivo de maximizar o uso de cpu e interferir na execução do menor número possível de jobs.

Cabe aos usuários a decisão de manter seus jobs na fila de execução, o que os torna passíveis de interrupção no momento em que um dos nós onde está sendo processado for desligado. Como alternativa, os jobs ainda não iniciados podem ser alterados para o estado Hold, que os mantém na fila sem que sejam elegíveis para execução. O comando para alterar o estado de um job deve ser especificado no seguinte formato:

  • qhold <identificacao_do_job>
  • Para liberar o job para execução, a qualquer momento, deve ser usado o comando:

  • qrls <identificação_do_job>
  • A manutenção será iniciada no dia 09/01/2023 com previsão de duração de 5 dias, podendo terminar antes caso não aconteçam imprevistos.

    A equipe de suporte do CENAPAD-SP acompanhará todo o processo e manterá os usuários informados sobre o andamento do mesmo.

    O tempo de manutenção em cada um dos nós está estimado entre uma e duas horas.

    Os jobs em execução serão interrompidos no momento em que o nó for desligado para manutenção. Terminada a manutenção no nó, o mesmo será reativado para o processamento de jobs.