reliable message

Troubleshooting Oracle LGWR wait Event ‘reliable message’ and %sys CPU Usage High, instance crash during DSG running

2024-11-132024-11-13 by weejar zhang

最近一客银行客户的Oracle环境，在部署了DSG做数据抽取后，数据库频繁的重启，希望分析一下原因，环境oracle 12c 2nodes- RAC on RHEL x86-64 7.3 , 数据库实例为Datatguard Pyhical Standby端，使用多租户。开始LGwr等待 ‘reliable message’，后出现IPC Send timeout detected，过几分钟后实例2驱逐，不久后实例1 crash 。Oracle home和/ 使用XFS 文件系统。问题期间大量进程活动，从ps查看处于D状态，并且WCHAN等待为xlog_G开头的函数调用，这里记录一下该事件。

Troubleshooting oracle wait “reliable message”

2025-08-312022-08-31 by weejar zhang

“reliable message”它是一个通用的等待事件，用于跟踪 Oracle 数据库中多种不同类型的通道通信。通常这是一个良性等待事件，可以忽略，如果占比过高需要诊断,一旦确定了较长的等待时间是否是由于频率、所涉及的 SQL 和包造成的，在oracle 11g较常见，主要有两个bug. Troubleshooting High Waits for ‘Reliable Message’ (Doc ID 2017390.1) 显示“If there is no performance issue, these waits can be ignored.”