Event ID 153 no Windows Server 2022: Diagnóstico Profissional de Falhas de Disco

Quando um servidor crítico começa a congelar, reiniciar sozinho ou simplesmente parecer “pesado”, poucas mensagens causam tanto receio quanto Event ID 153. Este artigo explica, em profundidade, por que o erro “The I/O operation at logical block address … for Disk … was retried” aparece no Windows Server 2022 Datacenter, como determinar se o vilão é hardware ou software e quais ações tomar para restaurar a estabilidade o quanto antes.

Índice

Visão geral do problema

O Event ID 153 é gerado pelo driver de armazenamento quando uma operação de leitura ou gravação não responde dentro do tempo esperado e precisa ser tentada novamente. O Windows consegue seguir em frente, mas a latência extra provoca travamentos momentâneos. Se o número de tentativas sobe além de um limite interno, o sistema marca o dispositivo como não confiável, escalando para erros 129, 7 ou até desligamento inesperado para proteger os dados.

Sintomas perceptíveis no dia a dia

  • Congelamentos de 5 a 30 segundos em sessões RDP ou aplicações.
  • Picos de latência em máquinas virtuais hospedadas no Hyper‑V.
  • Reinicializações automáticas acompanhadas de Kernel‑Power 41.
  • Backups via VSS levam mais tempo ou falham.

Por que o Windows gera o Event ID 153?

A mensagem 153 indica timeout na camada de I/O. Não deixa claro se o gargalo está no disco, no cabo, na controladora ou no driver. Por isso, isolar a causa exige olhar cada elo da cadeia — do platô magnético (ou célula NAND) até o sistema operacional.

Matriz de diagnóstico por camadas

CamadaO que o evento 153 sugereComo verificarPossíveis achados
Disco físico / SSDSetores instáveis, falhas intermitentes de leitura / gravaçãoSMART, chkdsk /r, utilitário do fabricanteReatribuição de setores, erros de leitura
Controladora / backplane / cabosTimeout entre SO e dispositivoDiagnóstico da controladora, troca de cabos, inspeção físicaFalha de porta, firmware desatualizado
Driver / firmwareIncompatibilidade ou bug que gera time‑outsWindows Update, site do fabricanteVersão antiga de driver / firmware
Carga de E/S excessivaPico de IOPS forçando repetição de operaçõesPerfMon, Task Manager, Monitor de RecursosFilas de disco persistentemente altas

Fluxo de investigação passo a passo

Avaliar saúde do disco

Antes de tudo, confira os contadores SMART. Procure valores não‑zero em “Reallocated Sectors”, “Current Pending Sector” e “Uncorrectable Errors”. Mesmo em SSDs NVMe, atributos como “MediaWearoutIndicator” e “Critical Warning” dão pistas importantes. Muitos utilitários corporativos, como HPE Smart Storage ou Dell OpenManage, sintetizam esses dados em relatórios claros.

Executar verificação de volume

O Windows pode marcar setores ruins e reescrever dados íntegros:

chkdsk C: /f /r

Para volumes de sistema, o comando agenda a correção no próximo boot. Reserve uma janela de manutenção, pois o processo pode durar horas em discos grandes.

Atualizar firmware e drivers

Drivers lançados junto com o RTM do Windows Server 2022 (agosto de 2021) já receberam diversas correções. Verifique:

  • Firmware do SSD / HDD.
  • Firmware da controladora RAID|HBA.
  • BIOS ou UEFI da placa‑mãe.
  • Driver de armazenamento (storport, stornvme, iaStorA, perc, etc.).

Antes de atualizar, registre as versões instaladas. Se algo der errado, o rollback será simples.

Checar cabeamento e backplane

Vibração, temperatura e simples envelhecimento degradam cabos SAS / SATA. Desligue o servidor, reseat conectores e inspecione sinais de oxidação. Em backplanes modulares, troque o slot do disco para descartar mau‑contato.

Verificar a controladora

Controladoras RAID com cache esgotado elevam a latência. Entre no utilitário (HPE Smart Array, Dell PERC, LSI MegaRAID, etc.) e revise:

  • Status de cada volume lógico.
  • Bateria ou Super‑Cap de cache em bom estado.
  • Política de escrita: Write‑back vs. Write‑through.

Monitorar após correções

Use o Performance Monitor para criar um Data Collector Set com os contadores:

  • LogicalDisk\Avg. Disk sec/Transfer (meta < 0,015 s).
  • LogicalDisk\Current Disk Queue Length (meta < 2 por disco).
  • PhysicalDisk\Split IO/Sec (evitar picos constantes).

Se, após firmware e cabeamento novos, os contadores permanecerem altos e o Event 153 voltar, planeje substituir o disco ou a controladora.

Como distinguir hardware de software

Uma pergunta frequente é se reinstalar o Windows resolveria o problema. Em mais de 90 % dos casos analisados em campo, a origem foi física: disco com setores instáveis ou canal SAS desgastado. Se o mesmo disco produzir Event 153 em outro servidor, a evidência é conclusiva. Já erros puramente lógicos — partição corrompida, antivírus interferindo — tendem a gerar Event ID 55, 57 ou 98, não 153.

Indicadores de falha física iminente

  • Aumento progressivo de Pending Sectors simétrico a cada reboot.
  • Temperatura do SSD acima de 70 °C mesmo com ventilação normal.
  • Event ID 129 (“Reset to device, \Device\RaidPortX”).
  • Event ID 7 (“The device, \Device\HarddiskX\DRY, has a bad block”).

Boas práticas para evitar reincidência

  • Mantenha backups testados: imagem do sistema e dumps das bases de dados.
  • Implemente firmware lifecycle management; firmware antigo é causa comum de I/O hung.
  • Use UPS com monitoramento; quedas de energia multiplicam erros de disco.
  • Garanta fluxo de ar limpo e cheque filtros de poeira trimestralmente.
  • Monitore logs automaticamente via Windows Admin Center ou SIEM.

Script de monitoramento contínuo (PowerShell)

O trecho abaixo registra Event 153 em CSV e envia alerta por e‑mail se a frequência ultrapassar 5 ocorrências em 10 minutos.


$filter = @{LogName='System'; Id=153}
Register-ObjectEvent -InputObject (Get-WinEvent -FilterHashtable $filter -MaxEvents 0 -ErrorAction SilentlyContinue) `
  -EventName 'EventRecordWritten' -Action {
      $global:counter++
      if ($global:counter -ge 5) {
          Send-MailMessage -To 'admin@example.com' -From 'monitor@example.com' `
              -Subject 'Alerta: Falhas de I/O repetidas' `
              -Body "Foram detectados $global:counter eventos ID 153 em 10 min."
          $global:counter = 0
      }
  }
$timer = New-Timer -Seconds 600 -Action { $global:counter = 0 }

Resumo rápido

O Event ID 153 quase sempre aponta para problemas físicos entre o sistema operacional e a unidade de armazenamento. Verifique SMART, atualize firmware, troque cabos e controle a temperatura antes de culpar o software. Se os testes confirmarem setores defeituosos ou latência anormal mesmo após manutenção, troque o disco ou a controladora o quanto antes.

Dúvidas frequentes

Event 153 pode ser causado por antivírus?

Raramente. Antivírus pode sobrecarregar E/S, mas ao gerar atrasos costuma mostrar Event ID 5010 no Log de Aplicativos, não 153 no Log de Sistema.

“Prefetch” ou “Superfetch” no Windows Server influenciam?

Prefetch é desativado por padrão em edições Server, então não interfere.

Posso ignorar o erro se acontece só de madrugada?

Não. A repetição desgasta setores críticos e aumenta o risco de perda de dados irrecuperável.

Um cluster Storage Spaces Direct também gera 153?

Sim. Embora o S2D tenha camadas de redundância, a mensagem ainda aparece no nó que detectou latência fora da tolerância.

Conclusão

Manter o Windows Server 2022 livre de Event ID 153 exige disciplina: firmware atualizado, componentes limpos, backups confiáveis e monitoramento ativo. Ao seguir o roteiro detalhado neste artigo, você reduz drasticamente o tempo para isolar a causa, evita paralisações inesperadas e prolonga a vida útil do armazenamento, protegendo serviços essenciais da sua organização.

Índice