diff --git "a/docs/diagnosis/plugin/slb/Nacos\345\270\270\350\247\201\351\227\256\351\242\230\345\217\212\350\247\243\345\206\263\346\226\271\346\263\225.md" "b/docs/diagnosis/plugin/slb/Nacos\345\270\270\350\247\201\351\227\256\351\242\230\345\217\212\350\247\243\345\206\263\346\226\271\346\263\225.md" index fa1bd0f..8285258 100644 --- "a/docs/diagnosis/plugin/slb/Nacos\345\270\270\350\247\201\351\227\256\351\242\230\345\217\212\350\247\243\345\206\263\346\226\271\346\263\225.md" +++ "b/docs/diagnosis/plugin/slb/Nacos\345\270\270\350\247\201\351\227\256\351\242\230\345\217\212\350\247\243\345\206\263\346\226\271\346\263\225.md" @@ -5,21 +5,19 @@ > 专栏地址:[【稳定大于一切】](https://github.com/StabilityMan/StabilityGuide) ## 目录 -- [1. 如何依赖最新的Nacos客户端?](#1-如何依赖最新的nacos客户端) -- [2. 客户端CPU高,或者内存耗尽的问题](#2-客户端cpu高或者内存耗尽的问题) -- [3. 日志打印频繁的问题](#3-日志打印频繁的问题) -- [4. 集群管理页面,raft term显示不一致问题](#4-集群管理页面raft-term显示不一致问题) +- [如何依赖最新的Nacos客户端?](#如何依赖最新的nacos客户端) +- [客户端CPU高,或者内存耗尽的问题](#客户端cpu高或者内存耗尽的问题) +- [日志打印频繁的问题](#日志打印频繁的问题) +- [集群管理页面,Raft Term 显示不一致问题](#集群管理页面raft-term-显示不一致问题) - [加入我们](#加入我们) -[Nacos](https://nacos.io/zh-cn/index.html)开源至今已有一年,在这一年里,得到了很多用户的支持和反馈。在与社区的交流中,我们发现有一些问题出现的频率比较高,为了能够让用户更快的解决问题,我们总结了这篇常见问题及解决方法,这篇文章后续也会合并到Nacos官网的[FAQ](https://nacos.io/zh-cn/docs/faq.html)里。 +[Nacos](https://nacos.io/zh-cn/index.html) 开源至今已有一年,在这一年里,得到了很多用户的支持和反馈。在与社区的交流中,我们发现有一些问题出现的频率比较高,为了能够让用户更快的解决问题,我们总结了这篇常见问题及解决方法,这篇文章后续也会合并到 Nacos 官网的 [FAQ](https://nacos.io/zh-cn/docs/faq.html) 里。 - -### 1. 如何依赖最新的Nacos客户端? -很多用户都是通过Spring Cloud Alibaba或者Dubbo依赖的Nacos客户端,那么Spring Cloud Alibaba和Dubbo中依赖的Nacos客户端版本,往往会落后于Nacos最新发布的版本。在一些情况下,用户需要强制将Nacos客户端升级到最新,此时却往往不知道该升级哪个依赖,这里将Spring Cloud Alibaba和Dubbo的依赖升级说明如下: +### 如何依赖最新的 Nacos 客户端? +很多用户都是通过 Spring Cloud Alibaba 或者 Dubbo 依赖的 Nacos 客户端,那么 Spring Cloud Alibaba 和 Dubbo 中依赖的 Nacos 客户端版本,往往会落后于 Nacos 最新发布的版本。在一些情况下,用户需要强制将 Nacos 客户端升级到最新,此时却往往不知道该升级哪个依赖,这里将 Spring Cloud Alibaba 和 Dubbo 的依赖升级说明如下: - #### Spring Cloud Alibaba -用户通常是配置以下Maven依赖来使用的Nacos: +用户通常是配置以下Maven依赖来使用的 Nacos: ```xml @@ -37,7 +35,8 @@ ``` -这两个jar包实际上又依赖了以下的jar包: +这两个 JAR 包实际上又依赖了以下的 JAR 包: + ```xml com.alibaba.nacos @@ -46,7 +45,7 @@ ``` -如果nacos-client升级了,对应的spring-cloud客户端版本不一定也同步升级,这个时候可以采用如下的方式强制升级nacos-client(以nacos-discovery为例): +如果 nacos-client 升级了,对应的 spring-cloud 客户端版本不一定也同步升级,这个时候可以采用如下的方式强制升级 nacos-client(以 nacos-discovery 为例): ```xml @@ -68,25 +67,26 @@ ``` - #### Dubbo -Dubbo也是类似的道理,用户通常引入的是以下的依赖: +Dubbo 也是类似的道理,用户通常引入的是以下的依赖: + ```xml - - com.alibaba - dubbo-registry-nacos - [latest version] - + + com.alibaba + dubbo-registry-nacos + [latest version] + - - - com.alibaba - dubbo - [latest version] - + + + com.alibaba + dubbo + [latest version] + ``` 需要升级Nacos客户端时,只需要如下修改依赖: + ```xml com.alibaba.nacos @@ -95,34 +95,37 @@ Dubbo也是类似的道理,用户通常引入的是以下的依赖: ``` - -### 2. 客户端CPU高,或者内存耗尽的问题 -问题的现象是依赖Nacos客户端的应用,在运行一段时间后出现CPU占用率高,内存占用高甚至内存溢出的现象,可以参考issue:[https://github.com/alibaba/nacos/issues/1605](https://github.com/alibaba/nacos/issues/1605)。这种情况首先要做的是分析CPU高或者内存占用高的原因,常用的命令有top、jstack、jmap、jhat等。其中一种情况是Nacos客户端实例在Spring Cloud Alibaba服务框架中被反复构造了多次,可以参考issue:[https://github.com/alibaba/spring-cloud-alibaba/issues/859](https://github.com/alibaba/spring-cloud-alibaba/issues/859)。这个问题已经得到了修复,预期会在下个Spring Cloud Alibaba版本中发布。 +### 客户端 CPU 高,或者内存耗尽的问题 +问题的现象是依赖 Nacos 客户端的应用,在运行一段时间后出现 CPU 占用率高,内存占用高甚至内存溢出的现象,可以参考 Issue:[https://github.com/alibaba/nacos/issues/1605](https://github.com/alibaba/nacos/issues/1605)。 - -### 3. 日志打印频繁的问题 -在老的Nacos版本中,往往会有大量的无效日志打印,这些日志的打印会迅速占用完用户的磁盘空间,同时也让有效日志难以查找。目前社区反馈的日志频繁打印主要有以下几种情况: +这种情况首先要做的是分析 CPU 高或者内存占用高的原因,常用的命令有 `top、jstack、jmap、jhat` 等。其中一种情况是 Nacos 客户端实例在 Spring Cloud Alibaba 服务框架中被反复构造了多次,可以参考 Issue:[https://github.com/alibaba/spring-cloud-alibaba/issues/859](https://github.com/alibaba/spring-cloud-alibaba/issues/859)。这个问题已经得到了修复,预期会在下个 Spring Cloud Alibaba 版本中发布。 -1. access日志大量打印,相关issue有:[https://github.com/alibaba/nacos/issues/1510](https://github.com/alibaba/nacos/issues/1510)。主要表现是{nacos.home}/logs/access_log.2019-xx-xx.log类似格式文件名的日志大量打印,而且还不能自动清理和滚动。这个日志是Spring Boot提供的tomcat访问日志打印,Spring Boot在关于该日志的选项中,没有最大保留天数或者日志大小控制的选项。因此这个日志的清理必须由应用新建crontab任务来完成,或者通过以下命令关闭日志的输出(在生产环境我们还是建议开启该日志,以便能够有第一现场的访问记录): +### 日志打印频繁的问题 +在老的 Nacos 版本中,往往会有大量的无效日志打印,这些日志的打印会迅速占用完用户的磁盘空间,同时也让有效日志难以查找。目前社区反馈的日志频繁打印主要有以下几种情况: -``` -server.tomcat.accesslog.enabled=false -``` +1. access 日志大量打印,相关 Issue 有:[https://github.com/alibaba/nacos/issues/1510](https://github.com/alibaba/nacos/issues/1510)。主要表现是 `{nacos.home}/logs/access_log.2019-xx-xx.log` 类似格式文件名的日志大量打印,而且还不能自动清理和滚动。这个日志是 Spring Boot 提供的 Tomcat 访问日志打印,Spring Boot 在关于该日志的选项中,没有最大保留天数或者日志大小控制的选项。因此这个日志的清理必须由应用新建 Crontab 任务来完成,或者通过以下命令关闭日志的输出(在生产环境我们还是建议开启该日志,以便能够有第一现场的访问记录): -2. 服务端业务日志大量打印且无法动态调整日志级别。这个问题在1.1.3已经得到优化,可以通过API的方式来进行日志级别的调整,调整日志级别的方式如下: + ``` + server.tomcat.accesslog.enabled=false + ``` -``` -# 调整naming模块的naming-raft.log的级别为error: -curl -X PUT '$nacos_server:8848/nacos/v1/ns/operator/log?logName=naming-raft&logLevel=error' -# 调整config模块的config-dump.log的级别为warn: -curl -X PUT '$nacos_server:8848/nacos/v1/cs/ops/log?logName=config-dump&logLevel=warn' -``` +2. 服务端业务日志大量打印且无法动态调整日志级别。这个问题在 `1.1.3` 已经得到优化,可以通过 API 的方式来进行日志级别的调整,调整日志级别的方式如下: + + ``` + # 调整naming模块的naming-raft.log的级别为error: + curl -X PUT '$nacos_server:8848/nacos/v1/ns/operator/log?logName=naming-raft&logLevel=error' + # 调整config模块的config-dump.log的级别为warn: + curl -X PUT '$nacos_server:8848/nacos/v1/cs/ops/log?logName=config-dump&logLevel=warn' + ``` + +3. 客户端日志大量打印,主要有心跳日志、轮询日志等。这个问题已经在 1.1.3 解决,请升级到 1.1.3 版本。 + +### 集群管理页面,Raft Term 显示不一致问题 +在 Nacos 1.0.1 版本中,Nacos 控制台支持了显示当前的集群各个机器的状态信息。这个功能受到比较多用户的关注,其中一个被反馈的问题是列表中每个节点的集群任期不一样。如下图所示(图片信息来自 Issue:[https://github.com/alibaba/nacos/issues/1786](https://github.com/alibaba/nacos/issues/1786)): -3. 客户端日志大量打印,主要有心跳日志、轮询日志等。这个问题已经在1.1.3解决,请升级到1.1.3版本。 +![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/15356/1567735682510-b7a73541-a5aa-44d0-9b2f-408443b804bc.png#align=left&display=inline&height=279&name=image.png&originHeight=558&originWidth=1685&size=45557&status=done&width=842.5) - -### 4. 集群管理页面,raft term显示不一致问题 -在Nacos 1.0.1版本中,Nacos控制台支持了显示当前的集群各个机器的状态信息。这个功能受到比较多用户的关注,其中一个被反馈的问题是列表中每个节点的集群任期不一样。如下图所示(图片信息来自issue:[https://github.com/alibaba/nacos/issues/1786](https://github.com/alibaba/nacos/issues/1786)):
![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/15356/1567735682510-b7a73541-a5aa-44d0-9b2f-408443b804bc.png#align=left&display=inline&height=279&name=image.png&originHeight=558&originWidth=1685&size=45557&status=done&width=842.5)
对于这个任期不一致的问题,原因主要是因为获取这个信息的逻辑有一些问题,没有从对应的节点上获取集群任期。这个问题会在下一个Nacos版本中修复。目前一个手动检查集群任期的办法是在每个节点上执行以下命令: +对于这个任期不一致的问题,原因主要是因为获取这个信息的逻辑有一些问题,没有从对应的节点上获取集群任期。这个问题会在下一个 Nacos 版本中修复。目前一个手动检查集群任期的办法是在每个节点上执行以下命令: ``` curl '127.0.0.1:8848/nacos/v1/ns/raft/state'