IT行业疑难杂症终极解决之道(每条都细看,必读)

0    1926    30

Tags:

👉 本文共约2733个字,系统预计阅读时间或需11分钟。

大法1:重启OS

1、有的系统参数或系统变更只有重启OS后才能生效

大法2:重启软件、重启数据库等

1、配置文件是否生效,有时需要重启软件才可以,例如OGG的进程参数文件,在修改之后必须重启进程才可以!

大法3:重装软件,甚至重装OS

1、第一次安装的时候比较陌生,可能配置有问题,但是第2次安装的时候就不一样了。 例如Oracle rac,每次安装的体会总会不一样!

大法4:Debug,开trace日志,开启详细日志,查日志

1、开启日志,很多软件都有debug模式,从Debug中可以看到很多内容哟!例如,dbca、listener、rman、ogg、rac安装和卸载、gpbackup 等等,很多都有debug模式,尝试参数--debug

2、对于Oracle的SQL执行报错,或结果不是自己想要的,那么可以进行sql_trace,配置10046、10053、errorstack等诊断事件,参考:https://www.dbaup.com/oraclezhongdesql_traceshishenmezhenduanshijianshishenmechangyongde10046ji10053zhenduanshijiandequbie.html

3、对于任何ora-XXX错误都可以开启event事件进行跟踪,https://dbaup.com/ruhezhenduanyixieweiyuliaode-oracle-cuowuora-nnnn-shiyongerrorstackshengchengzhenduanwenjian.html,例如alter system set events '16191 trace name errorstack level 10';的DG环境的REODO传输错误。

大法5:检查兼容性。软件和OS的兼容性,是否有bug等

1、不要跟软件的兼容性硬抗。不兼容就是不兼容,换版本吧!

大法6:可否换一种思路,可否换一种方式来解决问题。条条大路通罗马,不一定非得这条道!!!

1、迁移数据库的方案有很多,不一定非得OGG不可!

2、若OGG的集成模式不行,那么可以考虑使用之前的传统经典模式来配置,只要能同步,啥都好说。

3、远程备份,若S3不通,则可以尝试sshfs、nfs等其它方式。

大法7:重启网络或网络设备

1、若出现诡异的网络问题,那么可以尝试重启网络、重启光猫、重启路由器、重启交换机等网络设备。

2、时断时连,时好时坏,则请检查网络问题,是否有丢包、延迟现象。

3、网络错误或端口错误,可检查是否IP重复,某个IP地址不是我们期望的主机,可通过ssh直接登陆查看。

大法8:重新克隆

1、若克隆的机器有问题,自己解决问题又比较费时间。那么,请让客户删除整台机器,重新克隆机器吧。对于Oracle数据库的机器,建议先把数据库关机,然后再进行整机克隆!!!

大法9:数据库的表是否存在外键

1、外键约束用于防止破坏两个表之间的关联性,保证数据的完整性和一致性。但是,在实际使用过程中,外键会导致各种各样的问题,所以我们建议禁用或删除外键约束,例如在OGG的同步中请禁用外键约束吧!!!

大法10:若rac安装报错,那么请使用图形化界面安装

1、若使用静默安装,则很多错误并没有显示出来,所以忽略了可能的错误,但是,图形界面基本会把所有错误列举出来。

大法11:配置了日志,但是不生成日志文件,或日志不更新;修改了配置文件,但是配置文件不生效

1、若进行debug,但是日志不生成,那可能是日志生成到其它地方了,可以进行全局搜索文件名,例如Oracle 21c中配置dg4odbc,或Oracle 12c的rac的日志位置都有所变化

2、配置文件不生效,可能是配置文件路径有错误,也有可能是需要重启软件或重启OS才能生效

3、查看OS的日志是否有变化,例如“tail -f /var/log/messages

4、对不生成日志的进程做strace,例如,在11.2.0.1的rac环境中,若启动has进程,则会卡住,且没有日志生成,但在/var/log/messages会有一行输出,看不出来啥问题,此时可以使用strace -p xxx来分析,发现卡在open("/var/tmp/.oracle/npohasd", O_WRONLY上,此时需要执行dd if=/var/tmp/.oracle/npohasd of=/dev/null bs=1024 count=1才可以正常启库。

大法12:采用对比法找差异

1、例如已经证实OGG 21.3可以远程捕获11.2.0.4的数据库,但是客户的环境却不能,那客户的环境和我的环境的差异在哪里,例如redo大小不一样?单机或rac集群架构不一样??参数配置不一样?PSU补丁不一样??? 等等这些,进行一一排查。

大法13:找诡异的地方,详细分析异常奇怪的地方

1、例如,通常视图DBA_GOLDENGATE_SUPPORT_MODE查询都是秒出结果,可是突然某个环境执行很久都不能出结果,那问题有可能出在这里

大法14:是否是bug导致,可能OS可能软件本身

1、Oracle的bug太多了,自己搜mos吧,其它数据库MySQL、PG等都有自身的bug,若触发bug了,那就只能迂回解决了

大法15:防火墙!!!防火墙!!!防火墙!!!

1、服务器防火墙

2、客户端防火墙

3、企业防火墙软件,例如H3C SecPath F5000-M防火墙软件

4、云平台的安全组,ACL规则等

5、Windows Defender

6、部分杀毒软件

配置完成后,请重启相关设备。

大法16:安装类报错

1、不能放过任何的warning,例如GP数据库初始化过程的告警信息(可能会引起后续运行时的严重问题)

大法17:GitHub开源软件的报错

1、直接在相关开源软件的GitHub项目中的Issues中进行搜索,可能有意想不到的结果。

2、通过google搜索引擎进行搜索,一定要使用google搜索关键字。

3、尝试使用ChatGPT、通义千问等一些AI问答软件进行思路扩展。

大法18:端口是否占用

1、常用Oracle 1521,MySQL 3306,PG和GP 5432,SQL Server 1433等,一般会报端口占用的错误,但是GreenPlum启动时,若6000端口被占用,则会出现“Timeout expired connecting to template1”错误,不易排查,故在GreenPlum中,6000、7000等端口不能被占用。

大法19:分析OS的日志文件是否有OOM

1、分析操作系统的日志,查看是否有oom发生,自动杀掉了某些主机的进程,而导致OOM的发生,一般都是大查询导致(耗费内存的SQL,例如返回2亿条数据的查询)

标签:

Avatar photo

小麦苗

学习或考证,均可联系麦老师,请加微信db_bao或QQ646634621

您可能还喜欢...

发表回复

以 小麦苗 的身份登录。 编辑您的个人资料注销? 必填项已用 * 标注