Azure Stack HCI 23H2: falha na extensão LCM Controller (2311.2) — solução comprovada, causas e troubleshooting

Admins do Azure Stack HCI na versão 23H2 (build 2311.2) têm relatado que a extensão LCM Controller fica presa em estado de falha em alguns nós, mesmo após tentativas de remover e reinstalar. Este guia reúne o problema, o status oficial e um passo a passo que tem resolvido na prática.

Índice

Resumo do problema

Em clusters que executam Azure Stack HCI 23H2 (release 2311.2), a extensão LCM Controller pode não concluir a instalação em um ou mais nós. O comportamento costuma se manifestar como:

  • Estado Failed ou Provisioning failed da extensão no portal.
  • Instalação/desinstalação local sem efeito, mesmo após várias tentativas.
  • Mensagens de erro recorrentes nos logs do host, sem mudança de estado após reboot.

Segundo relatos consolidados de administradores, trata-se de um bug conhecido dessa versão. Na época, a Microsoft reconheceu o problema e sinalizou a disponibilização de uma build corrigida da extensão “em breve” (com expectativa comunicada para a mesma semana de fevereiro/2024). Enquanto a atualização oficial não é detectada no seu ambiente, a comunidade apontou um workaround eficaz — detalhado adiante — que resolve na maioria dos casos.

Entendendo a extensão LCM Controller

O LCM Controller é a extensão responsável por orquestrar componentes de configuração e conformidade no host do Azure Stack HCI, incluindo integrações com gerenciamento de configuração convidado e mecanismos de aplicação de políticas. Quando a extensão não instala corretamente, tarefas dependentes podem falhar ou ficar inconsistentes (por exemplo, aplicação de configurações esperadas, relatórios de estado e outras extensões que encadeiam dependências).

Quem é afetado e sintomas típicos

  • Ambiente: Clusters Azure Stack HCI na versão 23H2, build 2311.2.
  • Escopo: Alguns nós do cluster ficam com a extensão em falha, enquanto outros concluem a instalação.
  • Após tentativas locais: Reinstalações via scripts locais ou ação “Reparar” no Centro de Administração do Windows tendem a repetir a falha até que uma build corrigida seja liberada.
  • Logs: evidências em C:\Windows\AzureStack\Diagnostics\*.log e mensagens do cmdlet Get-AzStackHciExtension ajudam a confirmar o erro específico.

Status oficial

Em fevereiro/2024, o problema foi classificado como conhecido na build 2311.2. A orientação foi aguardar a atualização da extensão que corrigiria a falha. Como boas práticas:

  • Monitore o canal de comunicação do produto (por exemplo, notas de versão e o tópico “Azure Stack HCI” em comunidades oficiais) para saber quando a nova build da extensão estiver disponível no seu tenant.
  • Valide, antes de aplicar correções locais, se uma atualização mais recente da extensão já não está publicada e aprovada para o seu ambiente.

Workaround recomendado

Este fluxo tem se mostrado confiável e foi reportado como resolutivo em clusters com múltiplos nós (por exemplo, corrigindo nos nós 3 e 4 de um cluster de quatro nós) e em outros ambientes:

  1. Terminar sessão nos nós afetados
    Efetue logoff (encerrar sessão) de cada host que apresenta falha na extensão LCM Controller. Evite sessões RDP persistentes durante a reinstalação.
  2. Desinstalar a extensão pelo portal
    No Azure Portal, localize o recurso do cluster/nó correspondente e remova a extensão LCM Controller. Priorize a remoção pelo portal antes de scripts locais.
  3. Reinstalar remotamente via Cloud Shell
    No Azure Cloud Shell (Bash ou PowerShell), reproduza a instalação da extensão apenas para o LCM Controller.
    Comando base: az stack-hci-extension install --name Lcm Dicas: se necessário, especifique contexto de assinatura/grupo/cluster, por exemplo: # Ajuste os parâmetros ao seu ambiente az account set --subscription <SUBSCRIPTION_ID> az stack-hci-extension install --name Lcm \ --resource-group <RG> \ --cluster-name <CLUSTER>
  4. Acompanhar o progresso
    Aguarde a transição do estado para InstallingSucceeded e confirme a versão. Exemplos úteis: # Azure CLI (quando suportado no seu ambiente) az stack-hci-extension show --name Lcm --resource-group <RG> --cluster-name <CLUSTER> PowerShell Get-AzStackHciExtension -ClusterName | Where-Object Name -like 'Lcm'
  5. Validar saúde do cluster
    Cheque o estado do cluster após o sucesso da extensão: # PowerShell no host (exemplos) Get-ClusterNode Get-ClusterGroup Get-AzStackHciExtension | Format-Table Name,State,Version

Por que funciona? A remoção via portal evita resíduos de estado local e força o plano de controle a reprovisionar a extensão com parâmetros e versão consistentes, enquanto a reinstalação pelo Cloud Shell simplifica dependências e contexto.

Abordagem local e por que costuma falhar

A reinstalação local (scripts de remove/install no host ou “Reparar” no Centro de Admin do Windows) frequentemente repete o mesmo caminho de código que leva ao erro. Enquanto a build corrigida não está disponível, essa rota tende a reintroduzir a mesma condição de falha. Use-a apenas se houver orientação específica para a sua imagem do host ou se a atualização oficial já estiver publicada.

Guia de diagnóstico e coleta de evidências

Antes ou depois de aplicar o workaround, colete informações para auditoria e, caso necessário, abertura de chamado.

Verificar versão do host

# Confirmar se está em 23H2 (2311.2)
Get-ComputerInfo | Select-Object OsName,OsVersion,OsBuildNumber

No PowerShell do cluster

Get-ClusterNode | Select-Object Name, State

Logs relevantes do host

  • Diretório de diagnósticos: C:\Windows\AzureStack\Diagnostics\
  • Procure por arquivos recentes e termos como LCM, extension, install, error.
# PowerShell: localizar erros recentes
$path = 'C:\Windows\AzureStack\Diagnostics'
Get-ChildItem $path -File -Recurse |
  Where-Object { $_.LastWriteTime -gt (Get-Date).AddDays(-7) } |
  ForEach-Object {
    Select-String -Path $_.FullName -Pattern 'LCM|extension|install|error' -SimpleMatch
  }

Estado das extensões

# PowerShell
Get-AzStackHciExtension | Sort-Object Name | Format-Table Name, State, Version, LastStatusMessage -Auto

Exemplo de filtro apenas do LCM

Get-AzStackHciExtension | Where-Object Name -like 'Lcm' |
Select-Object Name, State, Version, LastStatusMessage

Tabela comparativa das abordagens

AbordagemEtapas resumidasObservações
Workaround recomendado1) Encerrar sessão nos nós afetados;
2) Desinstalar a extensão LCM Controller pelo portal;
3) Reinstalar remotamente pelo Cloud Shell usando az stack-hci-extension install --name Lcm.
Relatos indicam resolução consistente, incluindo clusters de quatro nós em que dois estavam em falha. É a rota mais confiável até a liberação oficial da build corrigida.
Reinstalação localExecutar scripts de remove/install no host ou usar “Reparar” no Centro de Admin do Windows.Costuma repetir a falha enquanto a versão problemática estiver vigente. Use apenas com orientação específica ou após atualização oficial.

Checklist rápido antes de agir

ItemComo verificarCritério
Versão do hostGet-ComputerInfoConfirmar 23H2 (2311.2). Se diferente, validar se o problema ainda procede.
Estado atual da extensãoGet-AzStackHciExtension ou portalLCM Controller em Failed/Provisioning failed.
Conectividade com a nuvemTestes de egress e DNSSem bloqueios de proxy/firewall para os serviços necessários.
PermissõesPerfil no AzurePermissão adequada para remover/adicionar extensões no recurso do cluster.
Janela de manutençãoPlanejamentoAgendada se houver risco de impacto em cargas críticas.

Fluxo de decisão recomendado

  1. O host está em 23H2 (2311.2) e o LCM Controller falha? Continue.
  2. Recolha evidências (logs e estado da extensão).
  3. Execute o workaround portal + Cloud Shell.
  4. Valide a saúde e registre a versão da extensão após o sucesso.
  5. Monitore a comunicação oficial para a build corrigida. Quando publicada, avalie a atualização definitiva.

Boas práticas para evitar reincidência

  • Padronização: mantenha todos os nós com a mesma base de patches e o mesmo perfil de extensões.
  • Rede e proxy: garanta egress consistente para os serviços do Azure necessários ao provisionamento.
  • Janela e rollback: sempre planeje janelas com ponto de restauração/rollback operacional definido.
  • Telemetria: monitore alertas de extensões e automatize verificações pós-atualização.
  • Documentação interna: registre o histórico de versões, comandos aplicados e resultados por nó.

Erros comuns e como reagir

Mensagem/sintomaCausa provávelAção sugerida
Provisioning failed após reinstalação localResíduos de estado ou bug conhecido da buildRemover pelo portal e reinstalar via Cloud Shell com az stack-hci-extension install --name Lcm.
Instalação fica indefinidamente em InstallingDependência de rede ou contexto de assinatura incorretoValidar egress, DNS e parâmetros de az account set; repetir o comando após corrigir.
Falha intermitente por nóDivergência de configuração entre hostsUniformizar patches e políticas, repetir o fluxo portal + Cloud Shell.

Comandos úteis de verificação

# Contexto de assinatura (Cloud Shell)
az account show
az account set --subscription <SUBSCRIPTION_ID>

Listar extensões do cluster (quando aplicável)

az stack-hci-extension list --resource-group  --cluster-name 

Reinstalar apenas o LCM Controller

az stack-hci-extension install --name Lcm --resource-group  --cluster-name 

PowerShell: estado detalhado

Get-AzStackHciExtension | Where-Object Name -like 'Lcm' |
Format-List Name, State, Version, LastStatusMessage

Perguntas frequentes

Posso insistir em “Reparar” no Centro de Admin do Windows?
Pode, mas, para a build 2311.2, os relatos indicam que o workaround portal + Cloud Shell é mais eficaz. O “Reparar” tende a reproduzir o mesmo caminho de falha.

É obrigatório reiniciar o host?
Não costuma ser necessário. Priorize logoff de sessões e reprovisionamento remoto da extensão. Reboot só se indicado pelos logs.

Como sei que a instalação de fato concluiu?
O estado da extensão muda para Succeeded e os comandos de verificação passam a reportar versão e mensagens sem erro. A saúde do cluster permanece estável.

Se eu já estiver em uma versão posterior do Azure Stack HCI?
Valide se o problema ainda ocorre. Em versões mais novas, a build da extensão pode ter sido corrigida.

Exemplo de execução controlada

Este roteiro ajuda a aplicar o fluxo com governança mínima e repetível.

  1. Planejar janela com stakeholders e avisos.
  2. Coletar estado: exporte Get-AzStackHciExtension antes da mudança.
  3. Remover via portal a extensão com falha.
  4. Reinstalar via Cloud Shell com o comando indicado.
  5. Validar e documentar a versão e o estado pós-ação.

Resumo executivo

Enquanto a build oficial corrigida da extensão LCM Controller não estiver aplicada ao seu ambiente, o método com melhor taxa de sucesso é remover pelo portal e reinstalar via Azure Cloud Shell usando az stack-hci-extension install --name Lcm. Esse workaround tem resolvido a falha de instalação em diversos clusters, incluindo cenários com parte dos nós afetados.

Apêndice

Itens rápidos de troubleshooting

  • Confirme a versão do host; se for 23H2 (2311.2), aplique o fluxo recomendado.
  • Revise logs em C:\Windows\AzureStack\Diagnostics\ para mensagens específicas da extensão.
  • Use o portal para desinstalar antes de qualquer tentativa local.
  • Mantenha-se atento a comunicações oficiais sobre novas builds da extensão.
Índice