Event ID 153 no Windows Server 2022: Diagnóstico Profissional de Falhas de Disco

Quando um servidor crítico começa a congelar, reiniciar sozinho ou simplesmente parecer “pesado”, poucas mensagens causam tanto receio quanto Event ID 153. Este artigo explica, em profundidade, por que o erro “The I/O operation at logical block address … for Disk … was retried” aparece no Windows Server 2022 Datacenter, como determinar se o vilão é hardware ou software e quais ações tomar para restaurar a estabilidade o quanto antes.

Índice

Visão geral do problema

O Event ID 153 é gerado pelo driver de armazenamento quando uma operação de leitura ou gravação não responde dentro do tempo esperado e precisa ser tentada novamente. O Windows consegue seguir em frente, mas a latência extra provoca travamentos momentâneos. Se o número de tentativas sobe além de um limite interno, o sistema marca o dispositivo como não confiável, escalando para erros 129, 7 ou até desligamento inesperado para proteger os dados.

Sintomas perceptíveis no dia a dia

Congelamentos de 5 a 30 segundos em sessões RDP ou aplicações.
Picos de latência em máquinas virtuais hospedadas no Hyper‑V.
Reinicializações automáticas acompanhadas de Kernel‑Power 41.
Backups via VSS levam mais tempo ou falham.

Por que o Windows gera o Event ID 153?

A mensagem 153 indica timeout na camada de I/O. Não deixa claro se o gargalo está no disco, no cabo, na controladora ou no driver. Por isso, isolar a causa exige olhar cada elo da cadeia — do platô magnético (ou célula NAND) até o sistema operacional.

Matriz de diagnóstico por camadas

Camada	O que o evento 153 sugere	Como verificar	Possíveis achados
Disco físico / SSD	Setores instáveis, falhas intermitentes de leitura / gravação	SMART, `chkdsk /r`, utilitário do fabricante	Reatribuição de setores, erros de leitura
Controladora / backplane / cabos	Timeout entre SO e dispositivo	Diagnóstico da controladora, troca de cabos, inspeção física	Falha de porta, firmware desatualizado
Driver / firmware	Incompatibilidade ou bug que gera time‑outs	Windows Update, site do fabricante	Versão antiga de driver / firmware
Carga de E/S excessiva	Pico de IOPS forçando repetição de operações	PerfMon, Task Manager, Monitor de Recursos	Filas de disco persistentemente altas

Fluxo de investigação passo a passo

Avaliar saúde do disco

Antes de tudo, confira os contadores SMART. Procure valores não‑zero em “Reallocated Sectors”, “Current Pending Sector” e “Uncorrectable Errors”. Mesmo em SSDs NVMe, atributos como “MediaWearoutIndicator” e “Critical Warning” dão pistas importantes. Muitos utilitários corporativos, como HPE Smart Storage ou Dell OpenManage, sintetizam esses dados em relatórios claros.

Executar verificação de volume

O Windows pode marcar setores ruins e reescrever dados íntegros:

chkdsk C: /f /r

Para volumes de sistema, o comando agenda a correção no próximo boot. Reserve uma janela de manutenção, pois o processo pode durar horas em discos grandes.

Atualizar firmware e drivers

Drivers lançados junto com o RTM do Windows Server 2022 (agosto de 2021) já receberam diversas correções. Verifique:

Firmware do SSD / HDD.
Firmware da controladora RAID|HBA.
BIOS ou UEFI da placa‑mãe.
Driver de armazenamento (storport, stornvme, iaStorA, perc, etc.).

Antes de atualizar, registre as versões instaladas. Se algo der errado, o rollback será simples.

Checar cabeamento e backplane

Vibração, temperatura e simples envelhecimento degradam cabos SAS / SATA. Desligue o servidor, reseat conectores e inspecione sinais de oxidação. Em backplanes modulares, troque o slot do disco para descartar mau‑contato.

Verificar a controladora

Controladoras RAID com cache esgotado elevam a latência. Entre no utilitário (HPE Smart Array, Dell PERC, LSI MegaRAID, etc.) e revise:

Status de cada volume lógico.
Bateria ou Super‑Cap de cache em bom estado.
Política de escrita: Write‑back vs. Write‑through.

Monitorar após correções

Use o Performance Monitor para criar um Data Collector Set com os contadores:

LogicalDisk\Avg. Disk sec/Transfer (meta < 0,015 s).
LogicalDisk\Current Disk Queue Length (meta < 2 por disco).
PhysicalDisk\Split IO/Sec (evitar picos constantes).

Se, após firmware e cabeamento novos, os contadores permanecerem altos e o Event 153 voltar, planeje substituir o disco ou a controladora.

Como distinguir hardware de software

Uma pergunta frequente é se reinstalar o Windows resolveria o problema. Em mais de 90 % dos casos analisados em campo, a origem foi física: disco com setores instáveis ou canal SAS desgastado. Se o mesmo disco produzir Event 153 em outro servidor, a evidência é conclusiva. Já erros puramente lógicos — partição corrompida, antivírus interferindo — tendem a gerar Event ID 55, 57 ou 98, não 153.

Indicadores de falha física iminente

Aumento progressivo de Pending Sectors simétrico a cada reboot.
Temperatura do SSD acima de 70 °C mesmo com ventilação normal.
Event ID 129 (“Reset to device, \Device\RaidPortX”).
Event ID 7 (“The device, \Device\HarddiskX\DRY, has a bad block”).

Boas práticas para evitar reincidência

Mantenha backups testados: imagem do sistema e dumps das bases de dados.
Implemente firmware lifecycle management; firmware antigo é causa comum de I/O hung.
Use UPS com monitoramento; quedas de energia multiplicam erros de disco.
Garanta fluxo de ar limpo e cheque filtros de poeira trimestralmente.
Monitore logs automaticamente via Windows Admin Center ou SIEM.

Script de monitoramento contínuo (PowerShell)

O trecho abaixo registra Event 153 em CSV e envia alerta por e‑mail se a frequência ultrapassar 5 ocorrências em 10 minutos.


$filter = @{LogName='System'; Id=153}
Register-ObjectEvent -InputObject (Get-WinEvent -FilterHashtable $filter -MaxEvents 0 -ErrorAction SilentlyContinue) `
  -EventName 'EventRecordWritten' -Action {
      $global:counter++
      if ($global:counter -ge 5) {
          Send-MailMessage -To 'admin@example.com' -From 'monitor@example.com' `
              -Subject 'Alerta: Falhas de I/O repetidas' `
              -Body "Foram detectados $global:counter eventos ID 153 em 10 min."
          $global:counter = 0
      }
  }
$timer = New-Timer -Seconds 600 -Action { $global:counter = 0 }

Resumo rápido

O Event ID 153 quase sempre aponta para problemas físicos entre o sistema operacional e a unidade de armazenamento. Verifique SMART, atualize firmware, troque cabos e controle a temperatura antes de culpar o software. Se os testes confirmarem setores defeituosos ou latência anormal mesmo após manutenção, troque o disco ou a controladora o quanto antes.

Dúvidas frequentes

Event 153 pode ser causado por antivírus?

Raramente. Antivírus pode sobrecarregar E/S, mas ao gerar atrasos costuma mostrar Event ID 5010 no Log de Aplicativos, não 153 no Log de Sistema.

“Prefetch” ou “Superfetch” no Windows Server influenciam?

Prefetch é desativado por padrão em edições Server, então não interfere.

Posso ignorar o erro se acontece só de madrugada?

Não. A repetição desgasta setores críticos e aumenta o risco de perda de dados irrecuperável.

Um cluster Storage Spaces Direct também gera 153?

Sim. Embora o S2D tenha camadas de redundância, a mensagem ainda aparece no nó que detectou latência fora da tolerância.

Conclusão

Manter o Windows Server 2022 livre de Event ID 153 exige disciplina: firmware atualizado, componentes limpos, backups confiáveis e monitoramento ativo. Ao seguir o roteiro detalhado neste artigo, você reduz drasticamente o tempo para isolar a causa, evita paralisações inesperadas e prolonga a vida útil do armazenamento, protegendo serviços essenciais da sua organização.

Event ID 153 no Windows Server 2022: Diagnóstico Profissional de Falhas de Disco