当前位置：主页 > 查看内容

Safepoint in Hotspot

发布时间：2021-06-07 00:00| 有位朋友查看

简介：Hotstpot?safepoint介绍? 1、什么是Safepoint? 在hotstpot内部有时候它会把?Java线程暂停掉有时候又会把它叫做Stop?The?World 在hotstpot里可以做很多vm级别操作,如?GC、HeapDump/Stack trace、JVMTI、Check vmOperations.hpp 这里列了一个?vmOperations.h……

Hotstpot?safepoint介绍?

1、什么是Safepoint?

在hotstpot内部有时候它会把?Java线程暂停掉有时候又会把它叫做Stop?The?World 在hotstpot里可以做很多vm级别操作,如?GC、HeapDump/Stack trace、JVMTI、Check vmOperations.hpp 这里列了一个?vmOperations.hpp这个头文件里面列出了绝大部分的这些vm?operation。下图演示如正常的java的线程运行的过程中有一个VMthread 有些特殊的条件触发了一个vm的操作请求这时候就会发起一个请求要求Java?thread都进入safepoint ?Java thread收到请求以后会自己暂停等所有的Java thread停下来整个JVMTI都安全了可以做一些比较复杂的vm的操作等操作做完了以后就可以要求这些Java线程再重新恢复。?

举例来说像GC会把在Heap中的Java对象移来移去如果这时Java线程正在运行的时候一边运行对象一边移动 Java线程有可能就会访问到一个非法的地址造成整个JVMTI的crash 所以这时候需要进入safepoint 把整个Java线程给暂停 ?Stop?The?World 会很影响性能。?

2、Safepoint中还会做什么?

从上述那些操作可知在hotstpot中会做很很多事平均下来也许一秒钟之内会有两三次都会进入到一个safepoint 所以hotstpot会借用这个机会用safepoint做一些常规的一些清理工作。?

举例如有些空的monitor 他觉得可以回收了就可以把它回收到一个monitor的list 还有与inline cache相关的会把它更新或者是清理掉。?

还有些内部数据?stringtable或者symbol table这类数据结构在safepoint中觉得可以有必要做一些rehash的操作的话也会在这里做这些都是一些很短的操作一般来说并不是特别需要关心这里主要提一下在进入safepoint的时候 hotstpot除了做vm?operation以外还会做一些这种常规的动作。?

3、对Safepoint我们关注那些指标?

safepoint会把整个jvm的那些应用线程给暂停掉这里主要是关心的当vm?thread发出请求的时候 Java的实验者能够及时的响应safepoint的请求能够马上的自己给停下来如果有一些线程它停下来了另一些线程还在运行这样的话其他的线程就会等于是浪费时间在等待所以说及时响应是它一个很重要的指标。?

进入了safepoint后 ?vm?operation它本身操作也希望能够在尽快短的时间内完成完成了以后还要能够快速的退出这里一般没有问题因为safepoint的退出都比较简单一般来说不太会造成什么影响,前面三个点从进到做vm?operation和退出整个是影响了一次暂停的时间,如果你业务方比较关心这种延迟、响应时间这些指标的话也许就要关注这几个性能。?

有可能进一次safepoint很短很快但是safepoint的发生的时间频率又很高这样的话就会发现它总体暂停的时间就会很长所以频率和总体时间也是一个需要关注的指标如果对应用的吞吐量和性能比较关注的话就要关注safepoint的总的暂停时间和它的那些频率这里就是对safepoint有可能要关注一些性能。?

4、Safepoint内部实现?

safepoint采用的是一种协作式的方式就是当它发起了safepoint的请求后那些Java线程来检测这个请求然后再把自己给暂停而不是通过强迫式例如VMthread调用某一个API强行把一个thread给占进强行暂停也许可以很快的把种线程给暂停住但是这里会有很多不确定的状态在里面安全性就很容易形成问题。?

Hotspot是所以就采用了这种协作式的方式每个Java线程它能够及时的判断出来?safepoint的请求能够到一个他自认为可以安全的一个点上把自己给停下来。?

与此同时既然是协作式就是说这些Java线程怎样能够确保它能够及时的响应因为有可能在做自己很复杂的业务逻辑什么时候去检查?safepoint 做这么多的检查会不会影响到?Java本身的性能这些都是需要综合考虑的一件事。?

5、Java thread状态转换?

在Hotspot里对于这种Java的线程其实主要有三个状态在互相这样转换第一个就是说是Thread in Java 这个是说明这个线程现在执行的代码是Java的代码如下图中标注在执行Java代码中在hotstpot里它其实又分成两种模式一种是解释器模式就interpreter 第二种是JIT,生成的那种native的code 这两种模式它在这个里面处理也是不一样的。?

另外两了状态Thread in native和Thread in?VM,他们其实执行的都是类似于像c和c 的一些代码。?

Thread in?vm的话主要是hotspot本身自己的那些代码 ?

Thread initiative的话主要是一些JMI 如Java code有的时候需要调一些GMI的接口去访问去调用一些c的库和方法这时候它会进入的是Thread in native的状态。?

以上就是他的三个状态在?safepoint的时候要针对这三种不同的情况来做不同的处理。?

6、Thread in?vm?

Thread in?vm主要执行的像hotstpot内部代码如arraycopy 如现在要执行一个arraycopy拷贝到一半的时候 GC如果把array移到另一个位置肯定就出问题了拷贝的都是一个非法的数据,做arraycopy的时候其实是会把自己Java线程的状态标志为Thread in?VM,类似的像反射有的时候做一些resolve或link hottsport里有很多的这种操作因为这些动作它往往是直接去操作hot?stpot内部的那些数据结构所以不会希望有一些vm?operation类似像GC那些动作来做这些事情所以需要用把线程状态标志为Thread in?VM,在Thread in?VM的状态下这个时候VM thread必须要等这个操作给做完以后才能做所以hot?stpot里对这些在VM状态的代码其实做得很小心它必须要保证这些这些事情能够很快的完成不会有这种长时间的阻塞或者这样的动作。?

7、Thread in?native?

Thread in native其实是通过JMI接口去执行了?c和c 的一些native的code 在这种状态下其实在JMI中已经认为它进入了safepoint 即使已经在运行,与前面提到的stop?the?world好像理解上有点不一样,这时候这个线程其实还是可以一直在运行的因为如果这个代码是native的code 其实hotstpot是没法知道是什么状态的而且也没法控制行为有可能在做一个很长的?Loop 在那里不停的执行所以这个时候如果要等的话肯定会出问题safepoint就进不去了但这时候认为已经是safepoint了就可以做那些vm?operation 因为我的Java线上还在运行当?native code执行自己的东西的时候是不会去碰到那些Java内部的那些hip hop object的那些东西当想访问那些object的时候需要通过那些JMI的接口当调用接口的时候这个时候JVM就会来检查这时候是不是正在做safepoint,如果正在做safepoint 就会把调用给阻塞然后线程就会被停下来,等vm?operation结束了以后再继续执行下去。?

所以虽然在Thread in native状态你仍然在运行但实际上不会造成造成危害,因为要访问那种Java object或者访问hip的时候这里的JMI接口会挡住。?

8、Thread in?java-interpreter?

Thread in Java的解释器模式 hotstpot中解释器其实是通过一个叫dispatch table的一个数据结构来实现的 Dispatch?table就是一个很大的?table 对于每个bite code 它对应的就是一小段的执行代码所以它执行的时候是哪个bite code就执行?dispatch table中的哪一段代码然后在不停的跳转。?

在解释器里面在hotstpot中其实是维护了两套dispatch table 一个就是normal?table 这就是刚刚说对每个?bite code做解释执行的代码另一个safept?table 除了做正常的解释执行之外对每个bite?code执行之前会加入一小段代码来检测 Jvm是不是发起了?safepoint的请求如果发起safepoint的请求就可以把自己给停下来。?

通过这样一个方式来safepoint的check的正常的话 ?Java执行的都是normal table里的bite code 如果?vm?Thread决定发起一次safepoint的请求的时候 hotstpot内部有个active table的指针它会做一次切换从normal table中切换到了safept?table。?

一个bite code执行完会去取下一次bite code的执行代码因为这时候已经被切换到了safept?table 会执行ssafept?table中对应的代码然后就会检查safepoint 然后再暂停。?

所以基本上可以理解在解释器模式中在每一次的bite code的最后都会做一次检查但实际上它是通过一个?table的表的一个切换来做的正常运行的话其实并没有做检查所以它的性能并不会受影响。?

9、Thread in java-jit?

Jet最关注的是它的性能在jet生成的code中如何来检查safepoint,在hotstpot里在它启动的时候会先申请一个全局的polling page的这一个页是一个4k大小的页,然后在jit生成的代码中在某些特定的一个点它会生成一两条指令直接去访问页就去读一下页里面这个内容是不是可读,特定点大概有两个第一个是在jit?code的返回的时候在return的地方会去检查一次;另一个是循环如果代码里面有循环它会在循环的?loop的back edge中他\也会去检查一次只在这两个点上去做检查一方面是确保他\检查尽可能的少另一方面要确保它的jit能够及时的响应?safepoint的请求本身只是读一下并没有做任何的动作这里如何把自己给停下来,就是?vm?Thread开始要触发sfepoint的时候会做一个动作会把全局的pulling page把他的权限给改了会用n protect类似于的API把权限设成不可访问。?

这样如果读取polling?page的这条指令就会触发一次SIGSEGV的异常但?hotstpot本身在?signal handle里面会对这种SIGSEGV做进行一些特殊处理它会捕获住这种异常会看触发异常的地址是不是polling?page? 然后如果是个polling?page的就知道是jit里面触发的?safepoint,所以这里并不是一个真正的异常而是一次safepoint的请求。?

后续的操作会把?Java线程给暂停然后把自己的状态标志为已经进入了?safepoint。?

如下图所示这段jit深层的代码里面有一个?Loop的polling 又有一个?return的polling,可以看这两条test的指令用红框标出来的最上面的是一个?polling是一个在back edge中他用来做polling的其实只是做一次test 把?polling地址放到了20寄存器中然后就去读一下test一下后续对这个其实根本没有任何操作,?Test的结果对他来说没有任何作用就是为了去读一次能读这个代码就可以继续往下执行。?

下面的一条test 旁边的标注是poll?return 紧接着下面就是一个return的指令所以这一条指令就是在return之前也会去做一次polling 来判断下是不是有人在发起了?safepoint的请求。?

这就是在jit?code中大概会在这样的两个地方去做?polling,第二个test 如果看上一条可能会看到20的地址其实是从二十五中读取了一个偏移量过来 25在现在X86的hotstpot 主要是用来做一个thread 所以它其实是从thread中去读了一个。?

这里说明一下牵涉到新的一个?jdk10引入了一个技术引入了一个叫thread?local?handkerchief,因为上述的?polling page是global的实际上把?global的page把它作为这个地址记下来然后每次polling的时候就直接去访问这个地址这就是一个常量根本没有任何动作不需要去到thread上去读。?

10、Global polling vs Thread Local handshake?

在jdk10它这里引入了一个叫thread the local的hand shake 这是一个新的协议品主要的一个目的是要能够对一个特定的thread来触发safepoint 前面讲过触发safepoint以后是会让所有的线程都停下来但对某些操作也许只是对一个线程来做动作的话做一个把整个?Java线程全部停下来的操作是一个比较比较浪费的一个行为。?

所以希望就是说能够用?thread?local的机制只对一个特定的thread来把它给暂停在11里面都是用thread local 这时候他取polling page的时候都是从通过自己的thread里面去读一个polling page的地址。?

实际上怎么做到thread?local 其实上述的polling page中做了两个页一个就是好的每次都能读另一个是坏的读就肯定会失败 good page和bad page这样两个页所以如果要对某个线程进行暂停的话进入safepoint的话其实就是把线程上的page的地址改写一下改成坏页这样?thread就会触发到异常来进入safepoint 这里有一个开关叫User?ThreadLocal?Handshakes,它现在默认是打开的基本上默认都会去走thread?local的?safepoint,如果还是想用global pulling 可以把它关掉。?

实际上用到thread?local,用特定的线程来进入safepoint的这种win其实也没有多少主要是现在的cgc大概会用到它。?

Jit因为比较关注性能如果那种loop在一个循环里面每个loop的回编中都要去做一个?polling 虽然只是一两条指令但如果是在一个大循环里面加起来的性能其实还是会有影响的所以hotstpot为了提高它的性能可以把counted loop的polling给去掉 counted loop就是一般看到的for loop 可以认为是那种for的循环因为这种循环中会有一个循环变量循环变量有初始值有它的边界有它的布长基本上都是固定的在hotstpot里面就会认为这种循环叫counted loop 在counted loop里面hotstpot可以做一个优化把这种?polling的指令去掉来提高它的性能但这样会造成它的一个trade off 如果你的counted?loop比较大这样进safepoint的时间就会就会被推迟了。?

因为在整个循环中都不会去检查polling 都不会去检查safepoint 要等这个循环执行完一直到最后退出的时候才会检查造成的一个可能负面影响就是说对进safepoint的时间它会延迟掉。?

像G1/ZGC一些新的GC,这些机器更关注的是说暂停的时间为了要把暂停时间给减少所以这些GC的时候又会默认把?counted?loop中的pulling给生成出来。?

总的开关就是UseCountedLoopSafepoints? 打开就会生成关掉就不生成这些polling。?

11、监控safepoint?

在日常的维护中一般来说希望能知道safepoint究竟造成了一些行为是怎样的这里提供的一些选项像JDK8 主要是提供了能够打印safepoint的统计信息能够知道它大概发生了多少次总的暂停时间可以计算一下它的平均时间等。?

但在JDK11中已经把这一个选项基本上已经是废弃了,因为在JDK11中已经用了一个新的一套Log的机制这套Log机制中对safepoint就可以用这个命令?logsafepoint debug打开这个开关会打印出很多的跟safepoint的详细信息如进入safepoint的花了多少时间出来大概多少时间总的时间是多少这些详细的这些信息都能够在用?log来记所以在JDK11中其实是比较推荐用这种方式来看safepoint的这些数据。?

本文转自网络，原文链接：https://developer.aliyun.com/article/784530
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：Dragonwell加速云原生应用 下一篇：直播预告 | 多账号架构下的身份权限与网络安全新能力发布

随机推荐

TIOBE 3月榜单：新功能将加入，C语言仍高

TIOBE 公布了 2021 年 3 月的编程语言排行榜。本月 TIOBE 指数没有什么有趣的变...
技术扫盲：关于低代码编程的可持续性交付

本文转载自微信公众号「bugstack虫洞栈」，作者小傅哥。转载本文请联系bugstack...
溢价域名的续费价格如何

溢价域名的续费价格如何？通常来说，因为溢价域名的价值高于普通域名，所以溢...
一日一技：巧用or关键字实现多重条件判断

在Python开发过程中，我们难免会遇到多重条件判断的情况的情况，此时除了用很多...
没有数据的数据科学？请尽早聘用数据工程

本文转载自公众号读芯术(ID：AI_Discovery)。这一刻你正在应对什么挑战?这位前...
NVIDIA GPU Operator分析一：NVIDIA驱动

背景我们知道如果在Kubernetes中支持GPU设备调度需要做如下的工作节点上安装...
为何Spark在编程界越来越吃香？Spark将成

前言统计科学家使用交互式的统计工具(比如R)来回答数据中的问题，获得全景的认...
Java编程内功-数据结构与算法「赫夫曼树

基本介绍给定 n 个权值作为 n 个叶子节点，构造一颗二叉树，若该树的带权路径长...
鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

想了解更多内容，请访问： 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
互联网创业第一步，从他花3500美元买了个

近几年，互联网行业蓬勃发展，在互联网浪潮的冲击下，互联网创业已成为一种比较...

Safepoint in Hotspot

推荐图文

云服务器调整实例配置询价 - API 文档

大数据时代，必须做好这3大布局：才能抢占新的造富

国内首款基于.NET Core平台的大数据可视化分析工具

云安全的现代方法

C4D 学习笔记

智能数据构建与管理平台Dataphin的前世今生：缘起

随机推荐

TIOBE 3月榜单：新功能将加入，C语言仍高

技术扫盲：关于低代码编程的可持续性交付

溢价域名的续费价格如何

一日一技：巧用or关键字实现多重条件判断

没有数据的数据科学？请尽早聘用数据工程

NVIDIA GPU Operator分析一：NVIDIA驱动

为何Spark在编程界越来越吃香？Spark将成

Java编程内功-数据结构与算法「赫夫曼树

鸿蒙内核源码分析(汇编汇总篇) | 鸿蒙所

互联网创业第一步，从他花3500美元买了个

关于我们