Admins do Azure Stack HCI na versão 23H2 (build 2311.2) têm relatado que a extensão LCM Controller fica presa em estado de falha em alguns nós, mesmo após tentativas de remover e reinstalar. Este guia reúne o problema, o status oficial e um passo a passo que tem resolvido na prática.
Resumo do problema
Em clusters que executam Azure Stack HCI 23H2 (release 2311.2), a extensão LCM Controller pode não concluir a instalação em um ou mais nós. O comportamento costuma se manifestar como:
- Estado Failed ou Provisioning failed da extensão no portal.
- Instalação/desinstalação local sem efeito, mesmo após várias tentativas.
- Mensagens de erro recorrentes nos logs do host, sem mudança de estado após reboot.
Segundo relatos consolidados de administradores, trata-se de um bug conhecido dessa versão. Na época, a Microsoft reconheceu o problema e sinalizou a disponibilização de uma build corrigida da extensão “em breve” (com expectativa comunicada para a mesma semana de fevereiro/2024). Enquanto a atualização oficial não é detectada no seu ambiente, a comunidade apontou um workaround eficaz — detalhado adiante — que resolve na maioria dos casos.
Entendendo a extensão LCM Controller
O LCM Controller é a extensão responsável por orquestrar componentes de configuração e conformidade no host do Azure Stack HCI, incluindo integrações com gerenciamento de configuração convidado e mecanismos de aplicação de políticas. Quando a extensão não instala corretamente, tarefas dependentes podem falhar ou ficar inconsistentes (por exemplo, aplicação de configurações esperadas, relatórios de estado e outras extensões que encadeiam dependências).
Quem é afetado e sintomas típicos
- Ambiente: Clusters Azure Stack HCI na versão 23H2, build 2311.2.
- Escopo: Alguns nós do cluster ficam com a extensão em falha, enquanto outros concluem a instalação.
- Após tentativas locais: Reinstalações via scripts locais ou ação “Reparar” no Centro de Administração do Windows tendem a repetir a falha até que uma build corrigida seja liberada.
- Logs: evidências em
C:\Windows\AzureStack\Diagnostics\*.log
e mensagens do cmdletGet-AzStackHciExtension
ajudam a confirmar o erro específico.
Status oficial
Em fevereiro/2024, o problema foi classificado como conhecido na build 2311.2. A orientação foi aguardar a atualização da extensão que corrigiria a falha. Como boas práticas:
- Monitore o canal de comunicação do produto (por exemplo, notas de versão e o tópico “Azure Stack HCI” em comunidades oficiais) para saber quando a nova build da extensão estiver disponível no seu tenant.
- Valide, antes de aplicar correções locais, se uma atualização mais recente da extensão já não está publicada e aprovada para o seu ambiente.
Workaround recomendado
Este fluxo tem se mostrado confiável e foi reportado como resolutivo em clusters com múltiplos nós (por exemplo, corrigindo nos nós 3 e 4 de um cluster de quatro nós) e em outros ambientes:
- Terminar sessão nos nós afetados
Efetue logoff (encerrar sessão) de cada host que apresenta falha na extensão LCM Controller. Evite sessões RDP persistentes durante a reinstalação. - Desinstalar a extensão pelo portal
No Azure Portal, localize o recurso do cluster/nó correspondente e remova a extensão LCM Controller. Priorize a remoção pelo portal antes de scripts locais. - Reinstalar remotamente via Cloud Shell
No Azure Cloud Shell (Bash ou PowerShell), reproduza a instalação da extensão apenas para o LCM Controller.
Comando base:az stack-hci-extension install --name Lcm
Dicas: se necessário, especifique contexto de assinatura/grupo/cluster, por exemplo:# Ajuste os parâmetros ao seu ambiente az account set --subscription <SUBSCRIPTION_ID> az stack-hci-extension install --name Lcm \ --resource-group <RG> \ --cluster-name <CLUSTER>
- Acompanhar o progresso
Aguarde a transição do estado para Installing → Succeeded e confirme a versão. Exemplos úteis:# Azure CLI (quando suportado no seu ambiente) az stack-hci-extension show --name Lcm --resource-group <RG> --cluster-name <CLUSTER> PowerShell Get-AzStackHciExtension -ClusterName | Where-Object Name -like 'Lcm'
- Validar saúde do cluster
Cheque o estado do cluster após o sucesso da extensão:# PowerShell no host (exemplos) Get-ClusterNode Get-ClusterGroup Get-AzStackHciExtension | Format-Table Name,State,Version
Por que funciona? A remoção via portal evita resíduos de estado local e força o plano de controle a reprovisionar a extensão com parâmetros e versão consistentes, enquanto a reinstalação pelo Cloud Shell simplifica dependências e contexto.
Abordagem local e por que costuma falhar
A reinstalação local (scripts de remove/install no host ou “Reparar” no Centro de Admin do Windows) frequentemente repete o mesmo caminho de código que leva ao erro. Enquanto a build corrigida não está disponível, essa rota tende a reintroduzir a mesma condição de falha. Use-a apenas se houver orientação específica para a sua imagem do host ou se a atualização oficial já estiver publicada.
Guia de diagnóstico e coleta de evidências
Antes ou depois de aplicar o workaround, colete informações para auditoria e, caso necessário, abertura de chamado.
Verificar versão do host
# Confirmar se está em 23H2 (2311.2)
Get-ComputerInfo | Select-Object OsName,OsVersion,OsBuildNumber
No PowerShell do cluster
Get-ClusterNode | Select-Object Name, State
Logs relevantes do host
- Diretório de diagnósticos:
C:\Windows\AzureStack\Diagnostics\
- Procure por arquivos recentes e termos como
LCM
,extension
,install
,error
.
# PowerShell: localizar erros recentes
$path = 'C:\Windows\AzureStack\Diagnostics'
Get-ChildItem $path -File -Recurse |
Where-Object { $_.LastWriteTime -gt (Get-Date).AddDays(-7) } |
ForEach-Object {
Select-String -Path $_.FullName -Pattern 'LCM|extension|install|error' -SimpleMatch
}
Estado das extensões
# PowerShell
Get-AzStackHciExtension | Sort-Object Name | Format-Table Name, State, Version, LastStatusMessage -Auto
Exemplo de filtro apenas do LCM
Get-AzStackHciExtension | Where-Object Name -like 'Lcm' |
Select-Object Name, State, Version, LastStatusMessage
Tabela comparativa das abordagens
Abordagem | Etapas resumidas | Observações |
---|---|---|
Workaround recomendado | 1) Encerrar sessão nos nós afetados; 2) Desinstalar a extensão LCM Controller pelo portal; 3) Reinstalar remotamente pelo Cloud Shell usando az stack-hci-extension install --name Lcm . | Relatos indicam resolução consistente, incluindo clusters de quatro nós em que dois estavam em falha. É a rota mais confiável até a liberação oficial da build corrigida. |
Reinstalação local | Executar scripts de remove/install no host ou usar “Reparar” no Centro de Admin do Windows. | Costuma repetir a falha enquanto a versão problemática estiver vigente. Use apenas com orientação específica ou após atualização oficial. |
Checklist rápido antes de agir
Item | Como verificar | Critério |
---|---|---|
Versão do host | Get-ComputerInfo | Confirmar 23H2 (2311.2). Se diferente, validar se o problema ainda procede. |
Estado atual da extensão | Get-AzStackHciExtension ou portal | LCM Controller em Failed/Provisioning failed. |
Conectividade com a nuvem | Testes de egress e DNS | Sem bloqueios de proxy/firewall para os serviços necessários. |
Permissões | Perfil no Azure | Permissão adequada para remover/adicionar extensões no recurso do cluster. |
Janela de manutenção | Planejamento | Agendada se houver risco de impacto em cargas críticas. |
Fluxo de decisão recomendado
- O host está em 23H2 (2311.2) e o LCM Controller falha? Continue.
- Recolha evidências (logs e estado da extensão).
- Execute o workaround portal + Cloud Shell.
- Valide a saúde e registre a versão da extensão após o sucesso.
- Monitore a comunicação oficial para a build corrigida. Quando publicada, avalie a atualização definitiva.
Boas práticas para evitar reincidência
- Padronização: mantenha todos os nós com a mesma base de patches e o mesmo perfil de extensões.
- Rede e proxy: garanta egress consistente para os serviços do Azure necessários ao provisionamento.
- Janela e rollback: sempre planeje janelas com ponto de restauração/rollback operacional definido.
- Telemetria: monitore alertas de extensões e automatize verificações pós-atualização.
- Documentação interna: registre o histórico de versões, comandos aplicados e resultados por nó.
Erros comuns e como reagir
Mensagem/sintoma | Causa provável | Ação sugerida |
---|---|---|
Provisioning failed após reinstalação local | Resíduos de estado ou bug conhecido da build | Remover pelo portal e reinstalar via Cloud Shell com az stack-hci-extension install --name Lcm . |
Instalação fica indefinidamente em Installing | Dependência de rede ou contexto de assinatura incorreto | Validar egress, DNS e parâmetros de az account set ; repetir o comando após corrigir. |
Falha intermitente por nó | Divergência de configuração entre hosts | Uniformizar patches e políticas, repetir o fluxo portal + Cloud Shell. |
Comandos úteis de verificação
# Contexto de assinatura (Cloud Shell)
az account show
az account set --subscription <SUBSCRIPTION_ID>
Listar extensões do cluster (quando aplicável)
az stack-hci-extension list --resource-group --cluster-name
Reinstalar apenas o LCM Controller
az stack-hci-extension install --name Lcm --resource-group --cluster-name
PowerShell: estado detalhado
Get-AzStackHciExtension | Where-Object Name -like 'Lcm' |
Format-List Name, State, Version, LastStatusMessage
Perguntas frequentes
Posso insistir em “Reparar” no Centro de Admin do Windows?
Pode, mas, para a build 2311.2, os relatos indicam que o workaround portal + Cloud Shell é mais eficaz. O “Reparar” tende a reproduzir o mesmo caminho de falha.
É obrigatório reiniciar o host?
Não costuma ser necessário. Priorize logoff de sessões e reprovisionamento remoto da extensão. Reboot só se indicado pelos logs.
Como sei que a instalação de fato concluiu?
O estado da extensão muda para Succeeded e os comandos de verificação passam a reportar versão e mensagens sem erro. A saúde do cluster permanece estável.
Se eu já estiver em uma versão posterior do Azure Stack HCI?
Valide se o problema ainda ocorre. Em versões mais novas, a build da extensão pode ter sido corrigida.
Exemplo de execução controlada
Este roteiro ajuda a aplicar o fluxo com governança mínima e repetível.
- Planejar janela com stakeholders e avisos.
- Coletar estado: exporte
Get-AzStackHciExtension
antes da mudança. - Remover via portal a extensão com falha.
- Reinstalar via Cloud Shell com o comando indicado.
- Validar e documentar a versão e o estado pós-ação.
Resumo executivo
Enquanto a build oficial corrigida da extensão LCM Controller não estiver aplicada ao seu ambiente, o método com melhor taxa de sucesso é remover pelo portal e reinstalar via Azure Cloud Shell usando az stack-hci-extension install --name Lcm
. Esse workaround tem resolvido a falha de instalação em diversos clusters, incluindo cenários com parte dos nós afetados.
Apêndice
Itens rápidos de troubleshooting
- Confirme a versão do host; se for 23H2 (2311.2), aplique o fluxo recomendado.
- Revise logs em
C:\Windows\AzureStack\Diagnostics\
para mensagens específicas da extensão. - Use o portal para desinstalar antes de qualquer tentativa local.
- Mantenha-se atento a comunicações oficiais sobre novas builds da extensão.