Exadata – ANBOB

Exadata （21.2.0） Automatic Recovery from Disk Controller Cache Failure

2025-06-04 by weejar zhang

Recently, for one of our customers’ XD system, a cell node automatically restarted. The reason was due to disk control. However, after the restart, it was discovered that there was an automatic operation to delete the ASM disk in the log, and this was not an intentional human action. Simply record this feature.

Exadata x5 Raid电池对IO性能的影响

2024-05-08 by weejar zhang

前段时间一套Oracle Exadata X5环境遇到了严重的IO问题，从AWR top event IO延迟相当高，问题前虽然IO性能并不是很好，但这次突然的性能减半，影响对于cell multiblock physical read和direct path write，cell smart table scan wait avg ms翻倍，甚至达到100ms以上，对于oracle环境是无法接受的，当然通过分析问题在硬件层，更换RAID卡电池后恢复，10几年前遇到过因为RAID卡电池没电，影响无法使用RAID cache导致IO性能衰减的问题

Troubleshooting Exadata X8 machine node reboot frequently rds_send_remove_from_sock

2024-01-18 by weejar zhang

最近有个客户的Oracle Exadata x8 数据库主机操作系统总是频繁的重启，重启前在DB,CRS层没有任何错误信息，当时的OS负载也比较低，仅从exawatcher的mpstat能发现在重启前15s左右部分CPU core sys使用达100%。操作系统有配置kdump生成了dump信息，发现在CPU在等待Watchdog detected hard LOCKUP on cpu 11，堆栈调用中包含rds_send_remove_from_sock，简单记录。

Oracle RAC Multiple Private Interconnects注意配置rp_filter

2023-09-082023-09-01 by weejar zhang

前段时间一套Oracle Exadata的环境， 2个ib做的private network和cell存储网络，但总有一条存储链路从db server到cell server ping不通，但是ibstat ibping rds-ping都正常，因为一个IB链路出问题同样影响IO，无法做到高可用。后分析发现是出于安全检查只是从内存级修改了rp_filter值为1启用了严格的反向路径校验，禁用rp filter后恢复正常。

Oracle insert values 差异Exadata X5 和Exadata X8 分析思路

2023-07-12 by weejar zhang

最近有个客户的某业务其中一条insert into txxxx values(seq.nextval, xx, xx ,xx);的SQL从Oracle Exadata X5迁移到X8上以后，sql性能有几百ms的差异，因该SQL是应用APP界面中登录写日志的一个SQL, 比较影响体验的一个关键SQL, 希望找到其中的原因，是否其它SQL存在相同的问题?

Troubleshooting Oracle Exadata X5 db instance mount fail with ORA-01105 & ORA-01154

2023-07-10 by weejar zhang

最近一个Oracle Exadata x5 2节点RAC 11.2.0.4环境，每个节点中有2套DB实例。 Node1正常运行，计划性重启Node 2后，CRS启动正常，主机上1个db的 instance 2启动正常，但另1个db的node2 db instance启动失败，提示下面的错误：
ORA-01105: mount is incompatible with mounts by other instances
ORA-01154: database busy. Open, close, mount, and dismount not allowed now

Troubleshooting Oracle instance start fail join cluster wait control file enqueue

2023-06-24 by weejar zhang

最近1 Oracle Exadata X7客户ora instance 2被驱逐后，重启db instance 2启动挂起，影响另一实例instance 1, 随后终止启动，实例1运行正常。分析db instance 2启动时在等待control file enqueue超时，OS 日志显示“RDS/IB: conn <192.168.*.3,192.168.*.6,4> racing for more than 1s, retry”

Exadata OS reboot dev_watchdog call Trace show “dev_deactivate_queue run_timer_softirq cpuidle_enter_state”

2023-04-13 by weejar zhang

近日一客户Exadata Machine节点总是会不定理重启，在DB和GI层无错误日志，类突然断电或无响应重启，分析OS message日志显示如下信息。
WARNING: CPU: 2 PID: 0 at net/sched/sch_generic.c:334 dev_watchdog+0x228/0x22c
Apr 7 12:49:37 xd08anbob03 kernel: Modules linked in: oracleacfs(PO) oracleadvm(PO) oracleoks(PO) ipmi_poweroff scsi_transport_iscsi

( 案例) Tuning OS performace kernel.sem cause high %sys CPU

2023-04-03 by weejar zhang

去年的blog《如何在 Linux 上诊断高 Sys CPU》记录过%sys CPU高与oracle相关常见的2个情况，这次刚好遇到了因OS内核参数配置的kernel.sem信号量产生CPU高的案例，记录一下现象。环境Oracle Exadata X8。

Exadata 故障3例:ORA-27302: failure occurred at: skgxpcnclrpc，内存耗尽，Cellserver disk error

2023-02-20 by weejar zhang

上周遇到几例Oracle Exadata Machine上的故障，简单记录一下问题现象，涉及db 实例重启失败报措OS资源相关skgxpcnclrpc，与内存耗尽后进程系统失败，IO hang/error , 及cell 存储节点坏盘日志的输出。

全宇宙最棒的关系型数据库环境能力EXADATA AWR一例

2022-05-192022-05-18 by weejar zhang

抛开政治，就这环境，要啥分布式! 省点机房机位租金和电费不好吗？ DB Name DB Id Unique Name Role Edition Release RAC CDB ANBOB 6666666 anbob PRIMARY EE 12.2.0.1.0 NO NO Instance Inst Num Startup Time anbob 1 27-Jun-20 21:06 Host Name Platform CPUs Cores Sockets Memory (GB) localhost Linux x86 64-bit 224 112 4 754.52 Snap Id Snap Time Sessions Cursors/Session Begin … Read more

Exadata （21.2.0） Automatic Recovery from Disk Controller Cache Failure

Exadata x5 Raid电池对IO性能的影响

Troubleshooting Exadata X8 machine node reboot frequently rds_send_remove_from_sock

Oracle RAC Multiple Private Interconnects注意配置rp_filter

Oracle insert values 差异Exadata X5 和Exadata X8 分析思路

Troubleshooting Oracle Exadata X5 db instance mount fail with ORA-01105 & ORA-01154

Troubleshooting Oracle instance start fail join cluster wait control file enqueue

Exadata OS reboot dev_watchdog call Trace show “dev_deactivate_queue run_timer_softirq cpuidle_enter_state”

( 案例) Tuning OS performace kernel.sem cause high %sys CPU

Exadata 故障3例:ORA-27302: failure occurred at: skgxpcnclrpc，内存耗尽，Cellserver disk error

全宇宙最棒的关系型数据库环境能力EXADATA AWR一例

Troubleshooting Exadata to Non Exadata ORA-64307 HCC not supported

Oracle 12cR2 : DataGuard 、 ZDLRA、REDO_TRANSPORT_USERT

Exadata X7, RAC gipcd 无法启动，因为Network socket files

如何创建Snapshot 使用Oracle ILOM Command-Line Interface

Exadata Instance crash ORA-600 [ksz_cln_proc1] and restart fail due to breakdown of one CellServer (案例)