llvm/test/CodeGen/AArch64/sme-za-lazy-save-buffer.ll


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 4
; RUN: llc -mtriple=aarch64-linux-gnu -mattr=+sme2 < %s | FileCheck %s

define i32 @no_tpidr2_save_required() "aarch64_inout_za" {
; CHECK-LABEL: no_tpidr2_save_required:
; CHECK:       // %bb.0: // %entry
; CHECK-NEXT:    mov w0, #42 // =0x2a
; CHECK-NEXT:    ret
entry:
  ret i32 42
}

define float @multi_bb_stpidr2_save_required(i32 %a, float %b, float %c) "aarch64_inout_za" {
; CHECK-LABEL: multi_bb_stpidr2_save_required:
; CHECK:       // %bb.0:
; CHECK-NEXT:    stp x29, x30, [sp, #-16]! // 16-byte Folded Spill
; CHECK-NEXT:    mov x29, sp
; CHECK-NEXT:    sub sp, sp, #16
; CHECK-NEXT:    .cfi_def_cfa w29, 16
; CHECK-NEXT:    .cfi_offset w30, -8
; CHECK-NEXT:    .cfi_offset w29, -16
; CHECK-NEXT:    rdsvl x8, #1
; CHECK-NEXT:    mov x9, sp
; CHECK-NEXT:    msub x8, x8, x8, x9
; CHECK-NEXT:    mov sp, x8
; CHECK-NEXT:    stur x8, [x29, #-16]
; CHECK-NEXT:    sturh wzr, [x29, #-6]
; CHECK-NEXT:    stur wzr, [x29, #-4]
; CHECK-NEXT:    cbz w0, .LBB1_2
; CHECK-NEXT:  // %bb.1: // %use_b
; CHECK-NEXT:    fmov s1, #4.00000000
; CHECK-NEXT:    fadd s0, s0, s1
; CHECK-NEXT:    b .LBB1_5
; CHECK-NEXT:  .LBB1_2: // %use_c
; CHECK-NEXT:    fmov s0, s1
; CHECK-NEXT:    rdsvl x8, #1
; CHECK-NEXT:    sub x9, x29, #16
; CHECK-NEXT:    sturh w8, [x29, #-8]
; CHECK-NEXT:    msr TPIDR2_EL0, x9
; CHECK-NEXT:    bl cosf
; CHECK-NEXT:    smstart za
; CHECK-NEXT:    mrs x8, TPIDR2_EL0
; CHECK-NEXT:    sub x0, x29, #16
; CHECK-NEXT:    cbnz x8, .LBB1_4
; CHECK-NEXT:  // %bb.3: // %use_c
; CHECK-NEXT:    bl __arm_tpidr2_restore
; CHECK-NEXT:  .LBB1_4: // %use_c
; CHECK-NEXT:    msr TPIDR2_EL0, xzr
; CHECK-NEXT:  .LBB1_5: // %exit
; CHECK-NEXT:    mov sp, x29
; CHECK-NEXT:    ldp x29, x30, [sp], #16 // 16-byte Folded Reload
; CHECK-NEXT:    ret
  %cmp = icmp ne i32 %a, 0
  br i1 %cmp, label %use_b, label %use_c

use_b:
  %faddr = fadd float %b, 4.0
  br label %exit

use_c:
  %res2 = call float @llvm.cos.f32(float %c)
  br label %exit

exit:
  %ret = phi float [%faddr, %use_b], [%res2, %use_c]
  ret float %ret
}

define float @multi_bb_stpidr2_save_required_stackprobe(i32 %a, float %b, float %c) "aarch64_inout_za" "probe-stack"="inline-asm" "stack-probe-size"="65536" {
; CHECK-LABEL: multi_bb_stpidr2_save_required_stackprobe:
; CHECK:       // %bb.0:
; CHECK-NEXT:    stp x29, x30, [sp, #-16]! // 16-byte Folded Spill
; CHECK-NEXT:    mov x29, sp
; CHECK-NEXT:    str xzr, [sp, #-16]!
; CHECK-NEXT:    .cfi_def_cfa w29, 16
; CHECK-NEXT:    .cfi_offset w30, -8
; CHECK-NEXT:    .cfi_offset w29, -16
; CHECK-NEXT:    rdsvl x8, #1
; CHECK-NEXT:    mov x9, sp
; CHECK-NEXT:    msub x8, x8, x8, x9
; CHECK-NEXT:  .LBB2_1: // =>This Inner Loop Header: Depth=1
; CHECK-NEXT:    sub sp, sp, #16, lsl #12 // =65536
; CHECK-NEXT:    cmp sp, x8
; CHECK-NEXT:    b.le .LBB2_3
; CHECK-NEXT:  // %bb.2: // in Loop: Header=BB2_1 Depth=1
; CHECK-NEXT:    str xzr, [sp]
; CHECK-NEXT:    b .LBB2_1
; CHECK-NEXT:  .LBB2_3:
; CHECK-NEXT:    mov sp, x8
; CHECK-NEXT:    ldr xzr, [sp]
; CHECK-NEXT:    stur x8, [x29, #-16]
; CHECK-NEXT:    sturh wzr, [x29, #-6]
; CHECK-NEXT:    stur wzr, [x29, #-4]
; CHECK-NEXT:    cbz w0, .LBB2_5
; CHECK-NEXT:  // %bb.4: // %use_b
; CHECK-NEXT:    fmov s1, #4.00000000
; CHECK-NEXT:    fadd s0, s0, s1
; CHECK-NEXT:    b .LBB2_8
; CHECK-NEXT:  .LBB2_5: // %use_c
; CHECK-NEXT:    fmov s0, s1
; CHECK-NEXT:    rdsvl x8, #1
; CHECK-NEXT:    sub x9, x29, #16
; CHECK-NEXT:    sturh w8, [x29, #-8]
; CHECK-NEXT:    msr TPIDR2_EL0, x9
; CHECK-NEXT:    bl cosf
; CHECK-NEXT:    smstart za
; CHECK-NEXT:    mrs x8, TPIDR2_EL0
; CHECK-NEXT:    sub x0, x29, #16
; CHECK-NEXT:    cbnz x8, .LBB2_7
; CHECK-NEXT:  // %bb.6: // %use_c
; CHECK-NEXT:    bl __arm_tpidr2_restore
; CHECK-NEXT:  .LBB2_7: // %use_c
; CHECK-NEXT:    msr TPIDR2_EL0, xzr
; CHECK-NEXT:  .LBB2_8: // %exit
; CHECK-NEXT:    mov sp, x29
; CHECK-NEXT:    ldp x29, x30, [sp], #16 // 16-byte Folded Reload
; CHECK-NEXT:    ret
  %cmp = icmp ne i32 %a, 0
  br i1 %cmp, label %use_b, label %use_c

use_b:
  %faddr = fadd float %b, 4.0
  br label %exit

use_c:
  %res2 = call float @llvm.cos.f32(float %c)
  br label %exit

exit:
  %ret = phi float [%faddr, %use_b], [%res2, %use_c]
  ret float %ret
}

declare float @llvm.cos.f32(float)