Hystrix
说到Hystrix就得先说一下产生的背景等等,那就是雪崩效应. 在微服务中肯定存在多个服务层之间的调用,基础服务的故障可能会导致级联故障,进而造成整个系统不可用的情况,这种现象被称为服务雪崩效应. 简单的来说就是一种因"服务提供者"的不可用导致"服务消费者"的不可用,并将不可用逐渐放大的过程.如下图所示:
A是服务提供者,B是A的消费者,CD是B的消费者(这也就是前面说的服务者和提供者并没有明显的界限,一个服务可以是提供者,也可能是其它服务的提供者). A的不可用引起了B的不可用,并将不可用逐渐放大到CD,服务雪崩就形成了.
那归根结底,造成服务雪崩效应的原因如下:
- 服务提供者不可用
- 硬件故障
- 程序Bug
- 缓存击穿
- 用户大量请求
- 重试加大流量
- 用户重试
- 代码逻辑重试
- 服务调用者不可用
- 同步等待造成的资源耗尽
对于每一个原因都有对应的应对策略:
- 流量控制
- 网关限流
- 用户交互限流
- 关闭重试
- 改进缓存模式
- 缓存预加载
- 同步改为异步刷新
- 服务自动扩容
- AWS的auto scaling
- 服务调用者降级服务(Hystrix)
- 资源隔离
- 对依赖服务进行分类
- 不可用服务的调用快速失败
而Hystrix就是为了预防链路雪崩效应产生的,下面说说Hystrix的特性.
Hystrix的特性
服务降级(Fallback)
Fallback相当于降级操作.对于查询操作,实现一个fallback方法,当请求后端服务出现异常的时候,可以使用fallback方法返回值,这个值一般是默认值或者来自缓存.
资源隔离
在 Hystrix 中,主要通过线程池来实现资源隔离。通常在使用的时候我们会根据调用的远程服务划分出多个线程池。例如调用产品服务的 Command 放入 A 线程池,调用账户服务的Command放入B线程池。这样做的主要优点是运行环境被隔离开了。这样就算调用服务的代码存在 bug 或者由于其他原因导致自己所在线程池被耗尽时,不会对系统的其他服务造成影响。
这样,通过对依赖服务实现线程池隔离,可以让应用更健壮,不会因为个别依赖服务出现问题而引起非相关服务的异常.但是这样要维护线程池会带来额外的开销, Netflix Hystrix 官方实例中,99%的情况下,使用线程池隔离的延迟有9ms,这个对于大多数需求来说几乎是没有影响;当然,如果觉得9ms的延迟开销接受不了,并且依赖服务足够可靠的情况下,可以使用信号模式来隔离资源,Hystrix在HystrixCommand 和 HystrixObservableCommand 中 2 处支持信号量的使用:
- 命令执行:如果隔离策略参数 execution.isolation.strategy 设置为 SEMAPHORE,Hystrix 会使用信号量替代线程池来控制依赖服务的并发控制。
- 降级逻辑:当 Hystrix 尝试降级逻辑时候,它会在调用线程中使用信号量。
信号量的默认值为 10,也可以通过动态刷新配置的方式来控制并发线程的数量。
断路器机制
当Hystrix Command请求后端服务失败数量超过一定比例(默认50%), 断路器会切换到开路状态(Open). 这时所有请求会直接失败而不会发送到后端服务. 断路器保持在开路状态一段时间后(默认5秒), 自动切换到半开路状态(HALF-OPEN). 这时会判断下一次请求的返回情况, 如果请求成功, 断路器切回闭路状态(CLOSED), 否则重新切换到开路状态(OPEN). Hystrix的断路器就像我们家庭电路中的保险丝, 一旦后端服务不可用, 断路器会直接切断请求链, 避免发送大量无效请求影响系统吞吐量, 并且断路器有自我检测并恢复的能力.
使用Feign Hystrix
熔断一般是用在服务调用者层面,所以在上一个eureka项目中,修改调用者.在配置文件中添加
feign.hystrix.enabled=true
创建回调类:
@Componentpublic class HelloRemoteHystrix implements HelloRemote { @Override public String hello(@RequestParam(value = "name") String name) { return "Hello World!!!"; }}
添加fallback,修改远程调用的接口
@FeignClient(name = "eureka-service-producter",fallback = HelloRemoteHystrix.class)public interface HelloRemote { /** * 远程调用提供者的hello * @param name * @return */ @GetMapping("/hello") public String hello(@RequestParam("name") String name);}
这个时候三个都启动的话,访问http://localhost:9010/hello/wangzhi会显示提供者的helloController中hello方法返回的内容,这个时候将提供者服务关掉,再次访问就会返回回调类的内容,也就是Hello World!!!
最后说一句,使用Hystrix,可以有效的防止雪崩,同时使系统具有自动降级和自动恢复服务的效果.
Hystrix Dashboard和Turbine
Hystrix-dashboard是一款针对Hystrix进行实时监控的工具,通过Hystrix Dashboard我们可以在直观地看到各Hystrix Command的请求响应时间, 请求成功率等数据。但是只使用Hystrix Dashboard的话, 你只能看到单个应用内的服务信息, 这明显不够. 我们需要一个工具能让我们汇总系统内多个服务的数据并显示到Hystrix Dashboard上, 这个工具就是Turbine.
Hystrix Dashboard
创建标准的SpringBoot项目hystrix-dashborad-demo,添加依赖,添加注解,添加配置,代码如下:
org.springframework.cloud spring-cloud-starter-netflix-hystrix @EnableHystrixDashboard@SpringBootApplicationpublic class HystrixDashboradDemoApplication { public static void main(String[] args) { SpringApplication.run(HystrixDashboradDemoApplication.class, args); }}spring.application.name=hystrix-dashboardserver.port=11000 org.springframework.cloud spring-cloud-starter-netflix-hystrix-dashboard
启动就可以访问了: localhost:11000/hystrix就可以看到界面了.
这个时候还没完,因为这个hystrix dashborad是监控,所以必须有服务让他监控,所以需要修改一下服务消费者,添加下面依赖:
org.springframework.boot spring-boot-starter-actuator org.springframework.cloud spring-cloud-starter-netflix-hystrix
添加注解
@SpringBootApplication@EnableDiscoveryClient@EnableFeignClients@EnableHystrixpublic class ServiceConsumerDemoApplication { public static void main(String[] args) { SpringApplication.run(ServiceConsumerDemoApplication.class, args); }}
添加配置
server.port=9010spring.application.name=eureka-service-consumereureka.client.service-url.defaultZone=http://localhost:8761/eurekafeign.hystrix.enabled=true# 用来暴露 endpoints的,如果自身就是监控的话,可以不写(http://www.ityouknow.com/springcloud/2017/05/18/hystrix-dashboard-turbine.html)management.endpoints.web.exposure.include=hystrix.stream
上面的配置基本就OK了,之后全部启动,访问localhost:11000/hystrix,在第一行输入 http://localhost:9010/actuator/hystrix.stream,点击monitor stream就可以进入监控界面了.
进入监控界面会显示loading,这个是等待你访问,所以这个时候访问localhost:9010/hello/wangzhi,这边监控就会有结果展示了,重点看那6个颜色不同的数字就可以,右边会有说明每个数字表示什么!!!
Turbine
通过 Hystrix Dashboard,我们可以方便的查看服务实例的综合情况,比如:服务调用次数、服务调用延迟等。但是仅通过 Hystrix Dashboard 我们只能实现对服务当个实例的数据展现,在生产环境我们的服务是肯定需要做高可用的,那么对于多实例的情况,我们就需要将这些度量指标数据进行聚合。这个时候就要用到Turbine.
在前面的基础上(也就是前面的系统要启动),重新创建项目turbine-demo,添加依赖等等操作如下
spring.application.name=turbineserver.port=11001eureka.client.service-url.defaultZone=http://localhost:8761/eurekaturbine.app-config==eureka-service-consumerturbine.cluster-name-expression=new String("default")turbine.combine-host-port=true@EnableTurbine@SpringBootApplicationpublic class TrubineDemoApplication { public static void main(String[] args) { SpringApplication.run(TrubineDemoApplication.class, args); }} org.springframework.cloud spring-cloud-starter-netflix-turbine
配置文件参数说明:
- turbine.app-config参数指定了需要收集监控信息的服务名;
- turbine.cluster-name-expression 参数指定了集群名称为 default,当我们服务数量非常多的时候,可以启动多个 Turbine 服务来构建不同的聚合集群,而该参数可以用来区分这些不同的聚合集群,同时该参数值可以在 Hystrix 仪表盘中用来定位不同的聚合集群,只需要在 Hystrix Stream 的 URL 中通过 cluster 参数来指定;
- turbine.combine-host-port参数设置为true,可以让同一主机上的服务通过主机名与端口号的组合来进行区分,默认情况下会以 host 来区分不同的服务,这会使得在本地调试的时候,本机上的不同服务聚合成一个服务来统计。
这样就可以启动了,直接在浏览器访问localhost:11001/turbin.stream就可以看到效果了.
这就是hystrix的使用和监控面板以及turbine的使用了,两个监控哦.