JIT编译器与运行时优化

约 2206 字大约 7 分钟

javajitcompiler

2025-03-13

概述

Java程序先被编译为字节码（.class），再由JVM在运行时解释或编译执行。JIT（Just-In-Time）编译器在运行时将热点字节码编译为高度优化的本地机器码，是Java性能接近甚至超越C/C++的关键。HotSpot JVM中有多个JIT编译器，通过分层编译策略协同工作。

执行引擎架构

分层编译（Tiered Compilation）

JDK 8+ 默认启用分层编译（-XX:+TieredCompilation），定义了5个编译层级：

层级	编译器	说明
Level 0	解释器	纯解释执行，收集基本profile
Level 1	C1	简单编译，不收集profile
Level 2	C1	有限profile（方法计数）
Level 3	C1	完整profile（分支、类型等）
Level 4	C2	深度优化编译

常规路径：Level 0 → Level 3 → Level 4。方法先由解释器执行，C1带profile编译后获得Level 3代码，profile数据成熟后由C2编译为Level 4的深度优化代码。

热点检测

方法调用计数器

统计方法被调用的次数。当调用次数超过阈值时，触发编译。

// 默认阈值（分层编译时由JVM动态调整）
-XX:CompileThreshold=10000  // 非分层编译模式

// 查看编译日志
-XX:+PrintCompilation

回边计数器

统计循环体的执行次数。循环体被频繁执行时，即使方法只被调用一次，也可能触发编译。

栈上替换（On-Stack Replacement, OSR）

当一个方法中的循环被判定为热点时，JIT 不需要等方法结束再用编译后的代码 — 它可以在循环执行期间直接替换当前栈帧中的代码。

// 示例：长循环触发OSR
public long sum(int n) {
    long total = 0;
    for (int i = 0; i < n; i++) { // 回边计数达到阈值后
        total += i;               // OSR：循环体替换为编译后的机器码
    }
    return total;
}

C1 vs C2 编译器

特性	C1（Client Compiler）	C2（Server Compiler）
编译速度	快	慢
优化深度	浅（局部优化）	深（全局优化）
生成代码质量	中等	高
典型优化	方法内联、常量折叠	逃逸分析、循环展开、向量化
编译耗时	毫秒级	十毫秒~百毫秒级
内存占用	少	多

关键优化技术

1. 方法内联（Method Inlining）

将被调用方法的代码直接嵌入调用方，消除方法调用开销，并为后续优化提供更大的优化范围。

// 内联前
public int calculate(int x) {
    return square(x) + 1;
}
private int square(int n) {
    return n * n;
}

// 内联后（JIT自动完成）
public int calculate(int x) {
    return x * x + 1; // square()的代码被嵌入
}

内联决策参数：

-XX:MaxInlineSize=35         # 字节码 <= 35字节的方法自动内联
-XX:FreqInlineSize=325       # 热点方法的内联大小上限
-XX:InlineSmallCode=2000     # 编译后代码 <= 2000字节才内联
-XX:MaxInlineLevel=15        # 最大内联深度

2. 逃逸分析（Escape Analysis）

分析对象的作用域，判断对象是否"逃逸"出方法或线程。

// 示例：对象不逃逸
public int getSum() {
    Point p = new Point(1, 2); // p不会逃逸出方法
    return p.x + p.y;
}

// JIT优化后（标量替换）
public int getSum() {
    int x = 1; // Point对象被拆解为标量
    int y = 2;
    return x + y; // 无需分配堆内存
}

逃逸分析参数：

-XX:+DoEscapeAnalysis        # 开启逃逸分析（默认开启）
-XX:+EliminateAllocations    # 开启标量替换（默认开启）
-XX:+EliminateLocks          # 开启锁消除（默认开启）

3. 循环优化

// 循环展开（Loop Unrolling）
// 原始循环
for (int i = 0; i < 100; i++) {
    sum += array[i];
}

// JIT优化后（概念性）
for (int i = 0; i < 100; i += 4) {
    sum += array[i];
    sum += array[i + 1];
    sum += array[i + 2];
    sum += array[i + 3];
}

// 循环不变量外提（Loop Invariant Code Motion）
// 原始代码
for (int i = 0; i < n; i++) {
    result[i] = input[i] * Math.PI; // Math.PI是常量
}
// 优化后
double pi = Math.PI; // 外提到循环外
for (int i = 0; i < n; i++) {
    result[i] = input[i] * pi;
}

4. 其他优化

优化	说明
常量折叠（Constant Folding）	编译时计算常量表达式
死代码消除（Dead Code Elimination）	移除不可达或无效代码
空检查消除（Null Check Elimination）	证明引用不为null时消除检查
范围检查消除（Range Check Elimination）	数组访问确认不越界时消除检查
虚方法去虚化（Devirtualization）	只有一个实现时替换为直接调用
向量化（Auto-Vectorization）	使用SIMD指令并行处理数据

去优化（Deoptimization）

当JIT的优化假设不再成立时，会回退到解释执行。

常见去优化原因：

类型假设失效：假设调用点只有一个实现类，突然加载了新的子类
uncommon trap：编译时假设某个分支永远不执行，实际执行了
Class被卸载或修改（极少见）

# 查看去优化事件
-XX:+TraceDeoptimization
-XX:+PrintCompilation  # 带"made not entrant"/"made zombie"标记

Graal编译器

Graal是用Java编写的JIT编译器，可替代C2。它是GraalVM的核心组件。

# JDK 16之前可以作为实验性C2替代
-XX:+UnlockExperimentalVMOptions
-XX:+UseJVMCICompiler

# GraalVM中默认使用Graal编译器

特性	C2	Graal
实现语言	C++	Java
代码质量	优秀	更优（某些场景）
可扩展性	困难	容易（Java生态）
编译速度	快	稍慢（但在改善）
AOT支持	不支持	支持（Native Image）
特殊优化	—	Partial Escape Analysis

诊断工具

# 打印编译日志
-XX:+PrintCompilation
# 输出格式：timestamp compilation_id attributes (tiered_level) method_name size deopt_reason

# 打印内联决策
-XX:+PrintInlining

# 打印编译后的汇编码（需要hsdis插件）
-XX:+UnlockDiagnosticVMOptions
-XX:+PrintAssembly

# JIT编译日志（XML格式，可用JITWatch分析）
-XX:+UnlockDiagnosticVMOptions
-XX:+LogCompilation
-XX:LogFile=jit.log

9f6c2-feat: organize wiki content and refresh site setup于 2026/3/14