系统相关 – ANBOB

finalshell多窗口导致linux sys% CPU high

2026-05-12 by weejar zhang

最近有个客户XC数据库环境的sys% CPU较高，是一台highgoDB 数据库的ARM linux操作系统，loadavg达到200多，sys%占到80%左右，从ps和top进程能看到有几个postgresql进程和几十个“w”进程，简单的记录这一现象。

Oracle启动失败 ORA-01242 ORA-01114 ORA-01110 ORA-27072 Linux-x86_64 Error: 5

2026-03-16 by weejar zhang

近期有客户的oracle数据库启动失败，之前有过存储掉电，而启动后提示ORA-01242: data file suffered media failure和ORA-01114: IO error writing block to file错误，关键是Linux-x86_64 Error: 5: Input/output error，表明问题在OS层，但是从OS 看文件存在，简单记录分析流程

除非使用 su – 命令切换到 UID，否则通过 SSH 设置 ulimit 不会生效?

2026-04-102026-02-26 by weejar zhang

我们遇到一个问题：在 limit.conf 中设置的 ulimit 参数默认情况下不会在通过 SSH 登录时生效。只有当我们再次使用 su – 命令切换到相同的用户 ID 时，才会应用我们设置的 ulimit 参数。操作系统在kylinOS和BClinux都遇到过，记录一下在bclinux中的配置。

RedHat(RHEL) 7更换CentOS 源(阿里云镜像)

2026-02-06 by weejar zhang

在 Red Hat Enterprise Linux 7（RHEL 7）系统上，若未注册 Red Hat 订阅服务（subscription），默认的 yum 命令将无法使用，为解决此问题，可将 RHEL 7 的 yum 源更换为 CentOS 7 的阿里云镜像源。以下是详细操作步骤（适用于 RHEL 7.9 或其他 7.x 版本）

Linux 文件系统mount失败

2025-09-282025-09-26 by weejar zhang

Linux上文件系统df 显示有未mount的文件系统，手动mount 不报错，但也没成功,当 df 显示了一个设备，但你手动挂载时感觉“没成功”，通常意味着挂载点被“隐藏”或“覆盖”了。或是udev或dm的原因，导致设备未正常挂载，系统日志（如 /var/log/messages 或 journalctl）可能会提供挂载失败的详细原因。最近遇到一个案例简单记录

Linux 系统中有多种工具可用于测试存储设备的 I/O 性能，以下是主要是OS一般自带的dd或FIO (Flexible I/O Tester)，因为数据库是一个对I/O敏感的应用软件，对于云上或虚拟环境有时存储性能不理想，通常需要工具在上线前做基准测试，避免上线后出现数据库性能问题，最近有个客户咨询生产一套达梦DMDPC环境在某云环境IaSS上，业务反应慢的无法接受，怀疑I/O不是很理想，这里记录几个常用的命令。

How to remove udev device after physica storage had remove?

2025-04-19 by weejar zhang

Udev uses the inotify mechanism to watch for changes in the rules directory, in both the library and in the local configuration trees (typically located at /lib/udev/rules.d and /etc/udev/rules.d). So most of the time you don’t need to do anything when you change a rules file.

从DeepSeek各行业赋能，聊聊AI运维

2025-03-022025-03-02 by weejar zhang

最近股市的表现尤为显著，智能医疗、智能农业、自动驾驶汽车、智能一体机以及智能政务等领域股票轮番上涨，这无疑是对上述趋势的最佳注解。与此同时，信创数据库领域似乎已经被资本市场冷落，而与之相关的智能运维细分市场又显得过于狭小。不过，作为我的专业背景所在，我对这一领域依然充满热情。因此，本文将从数据库管理员（DBA）的角度出发，探讨DeepSeek与AI运维之间的联系及其潜在影响。

从数据库管理角度聊聊AI医疗

2025-02-12 by weejar zhang

2025年初，DeepSeek 作为一家专注于大规模深度学习模型研发与部署的前沿企业，以其卓越的技术突破，推动了大模型智能应用在多个领域的蓬勃发展。其成功不仅证明了人工智能的强大潜力，众多大模型的崛起，也为AI与医疗的深度融合提供了更广阔的想象空间。如可以提高疾病诊断的精准度，加速药物研发，推动个性化治疗方案的发展等。此外，AI还能改善医疗管理效率，提升了医生的工作体验，同时增强了患者的就医体验。那AI医疗和数据库还有关吗？

Troutbleshooting ssh connect HPUX 11.31 slow

2025-01-09 by weejar zhang

Recently, I encountered a customer who needed more 20 seconds to login to the database server Hpux operating system through ssh, while the other one was normal. He consulted me and recorded the analysis method below.

NVMe SSD 和硬 RAID卡实现集中式数据库全栈国产化的100万IOPS+

2025-12-252024-12-08 by weejar zhang

随着数字经济的快速发展和数据量的激增，高性能数据库系统成为企业业务的核心基础设施之一。在全栈国产化的背景下，如何构建高效、可靠的存储架构，实现 100 万 IOPS 的性能目标，做为集中式数据库的基础设施提供支持，成为企业关注的重点。本文探讨通过 NVMe SSD 和硬件 RAID 卡组合，构建集中式数据库系统的技术路径。如利用 4 块NVMe SSD，在 RAID 0 下实际性能可超过 1,600,000 IOPS，完全满足高负载数据库的需求。

故障诊断 RHEL7 Slab SUnreclaim (kmalloc-8192) 内存占用高

2024-08-06 by weejar zhang

最近遇到两起运行在 Linux 7 上的数据库主机问题。由于操作系统内核的内存使用率高，导致 Oracle RAC 的性能受损或无法使用。内存主要被 Slab 的 SUnreclaim 区域占用。这些案例有一个共同特点：都使用了分布式文件存储系统。这次的情况是生产环境中有 750G 的内存，而 SLAB 使用了接近 200G 的内存，且主要是由 SUnreclaim 区域占用的。特此记录这个案例。

案例: FC HBA固件升级后Linux6启动失败分析过程

2024-07-25 by weejar zhang

前几天，一位朋友的Oracle RAC 2-nodes（Linux 6物理主机，HPE）系统计划进行HBA固件升级。幸运的是，他们采用了滚动节点的升级方式。在节点1升级FC HBA固件（Firmware version）并重启后，CRS启动失败，所有ASM DISK丢失，且在重启时遇到了操作系统无法启动的惊险情况。这里，我分享一下处理这种问题的经验。

CRS-42216: No interfaces are configured on the local node for interface definition virbr0(:.*)处理方法

2024-04-30 by weejar zhang

现象oracle 19c RACon linux 7.6， GI alert log一直在输出“2024-04-28 01:07:20.305 [GIPCD(53662)]CRS-42216: No interfaces are configured on the local node for interface definition virbr0(:.*)”，但不影响RAC的稳定和使用，在安装clufy时有时也提示PRVF-7617，在oracle 11g还有bug 记录可能影响私网通信简单记录处理方法。

Troubleshooting Oracle instance start failed with ORA-7445 [ipcor_net_get_ibdevname]

2024-04-18 by weejar zhang

最近，有一位海南客户报告了Oracle 19c RAC数据库启动时出现的错误，提示ORA-07445: exception encountered: core dump [ipcor_net_get_ibdevname()+71][SIGSEGV]。这个崩溃报告的异常原因是由于Oracle的一个bug引起的，但根本原因是由于数据库无法访问某些特定设备的API而导致的。通常这样的问题源于硬件方面的原因。在这里，我只是简要记录一下问题的表现。

数据库主从同步（Master-Slave Replication）和Raft/Paxos

2024-04-072024-04-02 by weejar zhang

主从同步和Raft/Paxos是两种不同的技术，用于不同的目的。主从同步主要用于数据库的复制和读取性能优化，而Raft/Paxos主要用于确保分布式系统的一致性。虽然它们都涉及到数据的复制和分布式系统，但它们的设计目标、实现方式和一致性保证都有所不同。

Linux多路经DM multipathd for ORACLE RAC ASM注意事项

2024-12-282024-01-31 by weejar zhang

对于服务器与存储分离的数据库环境中，业务数据存储在外挂存储设备上，常见于之前的oracle RAC等集中式数据库，同样也可以用于达梦或mysql数据库，服务器与存储连接常用的有基于NSF的NAS存储和基于Fabric协议的SAN存储，而企业中对于数据库常使用SAN存储，需要专业硬件如HBA卡和SAN交换机。进一步为了高可用一般是多条路径的方式。对于multipath环境遇到过几个客户配置了4条链路甚至6条,因为一批链路offline,没有switch链路，导致数据库一样会出现I/O失败现象。这里简单整理几个multipath相关的配置参数。

Troubleshooting Linux7 panic System crash shows exception RIP: pagetypeinfo_showfree_print

2024-03-122024-01-24 by weejar zhang

最近一套oracle RAC on Linux 7环境1节点操作系统重启，分析又是DB和CRS层无错误日志，还好OS有配置kdump，生成了vmcore文件，分析是在cat命令时触发操作系统panic， cpu 遭遇hard lockup，出现system crash. 调用堆栈显示exception RIP pagetypeinfo_showfree_print。

Troubleshooting Oracle Grid Infrastructure startup fails with Linux Inode full

2023-12-262023-12-25 by weejar zhang

最近一个客户一套较老的ORACLE RAC集群长时间无人看管，由于Oracle Grid Infrastructure（GI）的$ORACLE_HOME所在文件系统的inode耗尽，导致了gipcd无法启动，并且最终导致两个节点崩溃。 GI alert log提示gipcd无法启动，但实际是因为GI的$ORACLE_HOME所在文件系统inode耗尽,简单记录一下。
No space left on device (28)

Linux core.NNNN文件导致文件系统耗尽

2023-12-11 by weejar zhang

在oracle rdbms on Linux的环境有时会在$ORACLE_HOME/dbs生成几十GB的core.NNNN的core dump文件，更甚至导致文件系统耗尽，影响oracle进程稳定性， core文件用于分析进程异常终止原因，不只是oracle数据库，在其它数据库环境也经常会产生，如openGauss系这类线程(threads) 式进程数据库如果遇到这类异常，就不会如oracle、postgresql这类进程(processes)式只影响某进程crash, 而是整个实例crash，这也是线程数据库缺点，但往往他们宣传时线程式时避而不谈。