February 2023

Linux message show “systemd-logind: Failed to start user slice xx, The maximum number of pending replies per connection has been reached”

2023-02-28 by weejar zhang

最近操作系统的问题有点多，上周有套Oracle数据库RAC部分节点的日志在频繁输出“systemd-logind: Failed to start user slice user-1002.slice, ignoring: The maximum number of pending replies per connection has been reached (org.freedesktop.DBus.Error.LimitsExceeded)” 信息，找我协助分析一下。

Exadata 故障3例:ORA-27302: failure occurred at: skgxpcnclrpc，内存耗尽，Cellserver disk error

2023-02-20 by weejar zhang

上周遇到几例Oracle Exadata Machine上的故障，简单记录一下问题现象，涉及db 实例重启失败报措OS资源相关skgxpcnclrpc，与内存耗尽后进程系统失败，IO hang/error , 及cell 存储节点坏盘日志的输出。

How to diag High Memory Utilization on HP-UX ? (内存使用高)

2023-02-20 by weejar zhang

ile cache用于缓存文件数据的最小和最大内存数量由可调的内核参数filecache_min(5)和filecache_max(5)控制。参数filecache_min指定的部分内存专门用于加速文件I/O活动。内存不能用于任何其他目的，即使它不需要缓存文件数据。参数filecache_max指定filecache的最大大小。

Troubleshooting Oracle RAC node OS shutdown (‘crsctl stop crs -f’) cause db instance stop on another node

2023-12-112023-02-13 by weejar zhang

ORACLE 2-NODES RAC只关闭了node1上的db instace,当然此时业务不受影响，node2上的实例正常依旧可以对外提供服务， 1小时后OS组准备就绪，在节点1关闭操作系统，同步收到了业务无法访问，查看node2 db实例已自动shutdown, 其它资源正常，手动立即起动db实例2恢复业务，刺激，为什么停实例1 CRS会触发停实例2 的db instance?

Troubleshooting Oracle 19c sessions hang wait “enq: SS – contention” and “DFS lock handle” event

2023-02-152023-02-09 by weejar zhang

背景是了解到当晚B库的节点1有大量的数据加载操作。实例2 FG 并行查询Sort segment allocations空间紧张，通知所有实例CIC 等待DFS LOCK HANDLE, 其它会话等它完成等ENQ SS, 而实例1一直未答复sort segment清理完成。因为 Sort Segments cleanup是后台进程SMON责任，实例1 DBW似乎在等SMON或DBW很忙未完成，TEMP表空间已大到1.5TB，

Index Rebuild in Postgresql vs Oracle

2023-09-112023-02-03 by weejar zhang

在关系型数据库中，索引是SQL查询性能优化的常用技术，mysql可能不会创建太大的数据库，但是pg和oracle表达到100G或TB以上时，慢查询可能会比较明显，需要考虑创建适当的索引，但随着时间的推移，索引可能需要一些维护来保持性能. 通常当涉及到表时更新时，Oracle管理UNDO的方式和PostgreSQL中的MVCC工作方式略有不同，然而索引仍然可能碎片化，因此需要重新构建。

12cR2 ASM start fail when using multiple private interconnects， HAIP issue

2023-07-312023-02-01 by weejar zhang

Oracle从11.2.0.2开始引入了一个新特性网络冗余技术HAIP。HAIP的目的用来代替操作系统级别的网卡绑定以实现Active-Active的模式进行数据传输。Oracle HAIP 支持多个私网，之前通常使用OS层的网卡绑定，但Oracle一直在希望使用自己的技术而不依赖其他，但HAIP存在较多bug，个人还是比较推荐OS bond网卡，这里简单记录一个案例，当使用2个HAIP网卡时，节点间HAIP 1缺失并且交叉在两个网卡上的，导致ASM无法启动。