Quando um servidor crítico começa a congelar, reiniciar sozinho ou simplesmente parecer “pesado”, poucas mensagens causam tanto receio quanto Event ID 153. Este artigo explica, em profundidade, por que o erro “The I/O operation at logical block address … for Disk … was retried” aparece no Windows Server 2022 Datacenter, como determinar se o vilão é hardware ou software e quais ações tomar para restaurar a estabilidade o quanto antes.
Visão geral do problema
O Event ID 153 é gerado pelo driver de armazenamento quando uma operação de leitura ou gravação não responde dentro do tempo esperado e precisa ser tentada novamente. O Windows consegue seguir em frente, mas a latência extra provoca travamentos momentâneos. Se o número de tentativas sobe além de um limite interno, o sistema marca o dispositivo como não confiável, escalando para erros 129, 7 ou até desligamento inesperado para proteger os dados.
Sintomas perceptíveis no dia a dia
- Congelamentos de 5 a 30 segundos em sessões RDP ou aplicações.
- Picos de latência em máquinas virtuais hospedadas no Hyper‑V.
- Reinicializações automáticas acompanhadas de Kernel‑Power 41.
- Backups via VSS levam mais tempo ou falham.
Por que o Windows gera o Event ID 153?
A mensagem 153 indica timeout na camada de I/O. Não deixa claro se o gargalo está no disco, no cabo, na controladora ou no driver. Por isso, isolar a causa exige olhar cada elo da cadeia — do platô magnético (ou célula NAND) até o sistema operacional.
Matriz de diagnóstico por camadas
Camada | O que o evento 153 sugere | Como verificar | Possíveis achados |
---|---|---|---|
Disco físico / SSD | Setores instáveis, falhas intermitentes de leitura / gravação | SMART, chkdsk /r , utilitário do fabricante | Reatribuição de setores, erros de leitura |
Controladora / backplane / cabos | Timeout entre SO e dispositivo | Diagnóstico da controladora, troca de cabos, inspeção física | Falha de porta, firmware desatualizado |
Driver / firmware | Incompatibilidade ou bug que gera time‑outs | Windows Update, site do fabricante | Versão antiga de driver / firmware |
Carga de E/S excessiva | Pico de IOPS forçando repetição de operações | PerfMon, Task Manager, Monitor de Recursos | Filas de disco persistentemente altas |
Fluxo de investigação passo a passo
Avaliar saúde do disco
Antes de tudo, confira os contadores SMART. Procure valores não‑zero em “Reallocated Sectors”, “Current Pending Sector” e “Uncorrectable Errors”. Mesmo em SSDs NVMe, atributos como “MediaWearoutIndicator” e “Critical Warning” dão pistas importantes. Muitos utilitários corporativos, como HPE Smart Storage ou Dell OpenManage, sintetizam esses dados em relatórios claros.
Executar verificação de volume
O Windows pode marcar setores ruins e reescrever dados íntegros:
chkdsk C: /f /r
Para volumes de sistema, o comando agenda a correção no próximo boot. Reserve uma janela de manutenção, pois o processo pode durar horas em discos grandes.
Atualizar firmware e drivers
Drivers lançados junto com o RTM do Windows Server 2022 (agosto de 2021) já receberam diversas correções. Verifique:
- Firmware do SSD / HDD.
- Firmware da controladora RAID|HBA.
- BIOS ou UEFI da placa‑mãe.
- Driver de armazenamento (storport, stornvme, iaStorA, perc, etc.).
Antes de atualizar, registre as versões instaladas. Se algo der errado, o rollback será simples.
Checar cabeamento e backplane
Vibração, temperatura e simples envelhecimento degradam cabos SAS / SATA. Desligue o servidor, reseat conectores e inspecione sinais de oxidação. Em backplanes modulares, troque o slot do disco para descartar mau‑contato.
Verificar a controladora
Controladoras RAID com cache esgotado elevam a latência. Entre no utilitário (HPE Smart Array, Dell PERC, LSI MegaRAID, etc.) e revise:
- Status de cada volume lógico.
- Bateria ou Super‑Cap de cache em bom estado.
- Política de escrita: Write‑back vs. Write‑through.
Monitorar após correções
Use o Performance Monitor para criar um Data Collector Set com os contadores:
LogicalDisk\Avg. Disk sec/Transfer
(meta < 0,015 s).LogicalDisk\Current Disk Queue Length
(meta < 2 por disco).PhysicalDisk\Split IO/Sec
(evitar picos constantes).
Se, após firmware e cabeamento novos, os contadores permanecerem altos e o Event 153 voltar, planeje substituir o disco ou a controladora.
Como distinguir hardware de software
Uma pergunta frequente é se reinstalar o Windows resolveria o problema. Em mais de 90 % dos casos analisados em campo, a origem foi física: disco com setores instáveis ou canal SAS desgastado. Se o mesmo disco produzir Event 153 em outro servidor, a evidência é conclusiva. Já erros puramente lógicos — partição corrompida, antivírus interferindo — tendem a gerar Event ID 55, 57 ou 98, não 153.
Indicadores de falha física iminente
- Aumento progressivo de Pending Sectors simétrico a cada reboot.
- Temperatura do SSD acima de 70 °C mesmo com ventilação normal.
- Event ID 129 (“Reset to device, \Device\RaidPortX”).
- Event ID 7 (“The device, \Device\HarddiskX\DRY, has a bad block”).
Boas práticas para evitar reincidência
- Mantenha backups testados: imagem do sistema e dumps das bases de dados.
- Implemente firmware lifecycle management; firmware antigo é causa comum de I/O hung.
- Use UPS com monitoramento; quedas de energia multiplicam erros de disco.
- Garanta fluxo de ar limpo e cheque filtros de poeira trimestralmente.
- Monitore logs automaticamente via Windows Admin Center ou SIEM.
Script de monitoramento contínuo (PowerShell)
O trecho abaixo registra Event 153 em CSV e envia alerta por e‑mail se a frequência ultrapassar 5 ocorrências em 10 minutos.
$filter = @{LogName='System'; Id=153}
Register-ObjectEvent -InputObject (Get-WinEvent -FilterHashtable $filter -MaxEvents 0 -ErrorAction SilentlyContinue) `
-EventName 'EventRecordWritten' -Action {
$global:counter++
if ($global:counter -ge 5) {
Send-MailMessage -To 'admin@example.com' -From 'monitor@example.com' `
-Subject 'Alerta: Falhas de I/O repetidas' `
-Body "Foram detectados $global:counter eventos ID 153 em 10 min."
$global:counter = 0
}
}
$timer = New-Timer -Seconds 600 -Action { $global:counter = 0 }
Resumo rápido
O Event ID 153 quase sempre aponta para problemas físicos entre o sistema operacional e a unidade de armazenamento. Verifique SMART, atualize firmware, troque cabos e controle a temperatura antes de culpar o software. Se os testes confirmarem setores defeituosos ou latência anormal mesmo após manutenção, troque o disco ou a controladora o quanto antes.
Dúvidas frequentes
Event 153 pode ser causado por antivírus?
Raramente. Antivírus pode sobrecarregar E/S, mas ao gerar atrasos costuma mostrar Event ID 5010 no Log de Aplicativos, não 153 no Log de Sistema.
“Prefetch” ou “Superfetch” no Windows Server influenciam?
Prefetch é desativado por padrão em edições Server, então não interfere.
Posso ignorar o erro se acontece só de madrugada?
Não. A repetição desgasta setores críticos e aumenta o risco de perda de dados irrecuperável.
Um cluster Storage Spaces Direct também gera 153?
Sim. Embora o S2D tenha camadas de redundância, a mensagem ainda aparece no nó que detectou latência fora da tolerância.
Conclusão
Manter o Windows Server 2022 livre de Event ID 153 exige disciplina: firmware atualizado, componentes limpos, backups confiáveis e monitoramento ativo. Ao seguir o roteiro detalhado neste artigo, você reduz drasticamente o tempo para isolar a causa, evita paralisações inesperadas e prolonga a vida útil do armazenamento, protegendo serviços essenciais da sua organização.