OV - Compare Loops

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 321.50 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc_3/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131
2354	1.73	2.13	76.04	28.14	55.37	2189	1.71	2.46	84.23	28.14	55.37	2528	1.70	2.07	76.85	28.14	55.37	2240	1.70	2.42	84.37	28.14	55.37

Sum on 1 analyzed binary loop (libggml-cpu.so - 2354)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2189)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2528)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2240)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 6210 - 3.49 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245
		775	0.08	0.05	1.82	1.83	20.42			820	0.06	0.05	1.67	2.22	21.18

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 775)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 820)
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count
		Loop Computation Issues								Loop Computation Issues
		Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
		Presence of a large number of scalar integer instructions					1			Presence of a large number of scalar integer instructions					1
		Control Flow Issues								Control Flow Issues
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Data Access Issues								Data Access Issues
		Presence of indirect access					1			Presence of indirect access
		Vectorization Roadblocks								Vectorization Roadblocks
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Presence of indirect access					1			Presence of indirect access					0

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 3.02 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809
2317	0.04	0.02	0.56	77.23	96.44	2158	0.05	0.02	0.78	76.21	96.75	2496	0.05	0.02	0.83	77.23	96.44	2210	0.05	0.02	0.85	76.21	96.75

Sum on 1 analyzed binary loop (libggml-cpu.so - 2317)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2158)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2496)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2210)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 6220 - 2.66 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions
1408	0.06	0.04	1.43	0	24.52			1596	0.05	0.03	1.24	0	26.14

Sum on 1 analyzed binary loop (libggml-cpu.so - 1408)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1596)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis					Count	Analysis	Count
Loop Computation Issues								Loop Computation Issues
Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1			Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Control Flow Issues								Control Flow Issues
Presence of calls					1			Presence of calls					1
Data Access Issues								Data Access Issues
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1
Vectorization Roadblocks								Vectorization Roadblocks
Presence of calls					1			Presence of calls					1
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1

▶vec.cpp: 385 - 2.32 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1008-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1009-1023 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1031-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions		Loop Source Regions
886	0.06	0.05	1.62	70.45	83.38	756	0.03	0.02	0.70	80	97.68

Sum on 1 analyzed binary loop (libggml-cpu.so - 886)						Sum on 1 analyzed binary loop (libggml-cpu.so - 756)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count
Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1

▶ops.cpp: 4325 - 1.80 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326
1249	0.03	0.01	0.41	94.12	97.06	1148	0.03	0.02	0.53	0	26.56	1353	0.03	0.01	0.42	16.67	54.17	1193	0.03	0.01	0.43	17.78	55.56

Sum on 1 analyzed binary loop (libggml-cpu.so - 1249)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1148)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1353)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1193)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access						Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access						Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 10 - 1.07 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
413	0.02	0.01	0.24	0	25	419	0.02	0.01	0.26	25	100	437	0.02	0.01	0.31	0	25	431	0.02	0.01	0.25	25	100

Sum on 1 analyzed binary loop (libggml-cpu.so - 413)						Sum on 1 analyzed binary loop (libggml-cpu.so - 419)						Sum on 1 analyzed binary loop (libggml-cpu.so - 437)						Sum on 1 analyzed binary loop (libggml-cpu.so - 431)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 18 - 0.93 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
520	0.02	0.01	0.21	0	23.68	493	0.02	0.01	0.21	25	100	541	0.02	0.01	0.26	0	23.68	515	0.03	0.01	0.25	25	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 541)						Sum on 1 analyzed binary loop (libggml-cpu.so - 515)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
												Loop Computation Issues						Loop Computation Issues
												Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
												Data Access Issues						Data Access Issues
												Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
												Vectorization Roadblocks						Vectorization Roadblocks
												Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶quants.c: 2506 - 0.79 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575
2236	0.01	0.00	0.17	50.56	65.8	2056	0.01	0.01	0.21	49.72	67.11	2425	0.01	0.01	0.21	50.56	65.8	2113	0.01	0.01	0.19	49.44	66.92

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 2056)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2425)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
						Data Access Issues						Data Access Issues
						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
						Vectorization Roadblocks						Vectorization Roadblocks
						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.cpp: 390 - 0.76 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1057-1057 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 338-338 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 366-366 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 996-996 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1136-1136 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1696-1696 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1724-1724 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7618-7618 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 8905-8905 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 11874-11874 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12047-12047 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17735-17735 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21111-21111 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22099-22099 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 390-390
						794	0.03	0.02	0.76	84.85	96.97

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 794)
Analysis	Count	Analysis	Count	Analysis	Count	Analysis					Count
						Loop Computation Issues
						Presence of expensive FP instructions					1
						Data Access Issues
						Presence of constant non-unit stride data access					1
						Vectorization Roadblocks
						Presence of constant non-unit stride data access					1

▶ggml-cpu.c: 3228 - 0.65 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229
0	0.02	0.00	0.16	92.5	98.75	5	0.02	0.00	0.16	88.37	93.9	0	0.01	0.00	0.14	91.67	98.61	1	0.02	0.01	0.18	86.21	94.83

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.60 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139
2337	0.30	0.00	0.15	0	50	2172	0.31	0.00	0.17	0	50	2511	0.26	0.00	0.13	0	50	2223	0.29	0.00	0.16	0	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.h: 411 - 0.58 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions		Loop Source Regions
1718	0.01	0.01	0.22	100	100	1525	0.02	0.01	0.36	96.97	96.99

Sum on 1 analyzed binary loop (libggml-cpu.so - 1718)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1525)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count
Loop Computation Issues						Loop Computation Issues
Presence of a large number of scalar integer instructions						Presence of a large number of scalar integer instructions					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.h: 1045 - 0.46 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_3						Run gcc_3
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1045-1058 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1072-1072 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 390-391					Loop Source Regions
				916	0.03	0.01	0.46	73.33	91.67

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 916)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count	Analysis	Count
				Loop Computation Issues
				Presence of expensive FP instructions					1
				Control Flow Issues
				Vectorization Roadblocks
				Presence of more than 4 paths					1

▶vec.cpp: 311 - 0.42 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_3						Run gcc_3
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 311-316					Loop Source Regions	/opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12524-12524 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 26575-26575 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 311-311
				908	0.01	0.01	0.20	50	100	788	0.02	0.01	0.22	44.44	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count

▶vec.cpp: 231 - 0.40 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions		Loop Source Regions
879	0.02	0.01	0.22	100	100	754	0.02	0.01	0.18	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count

▶vec.h: 491 - 0.39 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_3						Run gcc_3
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 491-497					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 491-491 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12524-12524 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22092-22092 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 26575-26575
				1908	0.02	0.00	0.17	40	100	1622	0.02	0.01	0.22	27.59	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 1622)
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count
										Data Access Issues
										Presence of constant non-unit stride data access					1
										Vectorization Roadblocks
										Presence of constant non-unit stride data access					1

▶ops.cpp: 6446 - 0.29 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457
1403	0.01	0.00	0.08	35.29	39.71	785	0.01	0.00	0.05	42.86	53.57	1591	0.01	0.00	0.08	55.56	43.75	830	0.01	0.00	0.08	42.86	53.57

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.26 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/armclang_3/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions
2338	0.14	0.00	0.07	0	31.25	2170	0.22	0.00	0.12	0	31.25	2512	0.14	0.00	0.07	0	31.25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis	Count

▶ops.cpp: 8817 - 0.25 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8817-8819					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8818-8819 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826
		1516	0.02	0.01	0.21	0	27.08			1612	0.01	0.00	0.03	0	41.07

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count

▶<unknown>: 0 - 0.22 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3						Run gcc_3
Loop Source Regions						Loop Source Regions						Loop Source Regions						Loop Source Regions
2741	0.00	0.00	0.00	0	0	3858	0.01	0.00	0.01	0	0	1391	0.01	0.00	0.01	0	0	4053	0.01	0.00	0.01	0	0
2724	0.00	0.00	0.00	0	0	3762	0.01	0.00	0.01	0	0	2872	0.00	0.00	0.00	0	0	4204	0.00	0.00	0.00	0	0
1252	0.01	0.00	0.00	0	0	504	0.01	0.00	0.00	0	0	2869	0.00	0.00	0.00	0	0	4202	0.00	0.00	0.00	0	0
2600	0.00	0.00	0.00	0	0	3856	0.01	0.00	0.00	0	0	3222	0.01	0.00	0.00	0	0	4610	0.01	0.00	0.01	0	0
2740	0.00	0.00	0.00	0	0	4130	0.01	0.00	0.00	0	0	2846	0.00	0.00	0.00	0	0	4232	0.00	0.00	0.00	0	0
2975	0.01	0.00	0.00	0	0	3977	0.01	0.00	0.00	0	0	3061	0.00	0.00	0.00	0	0	4047	0.00	0.00	0.00	0	0
2565	0.00	0.00	0.00	0	0	4132	0.01	0.00	0.00	0	0	1892	0.01	0.00	0.01	0	0	3906	0.01	0.00	0.01	0	0
2858	0.02	0.00	0.01	0	0	4159	0.01	0.00	0.00	0	0	1911	0.00	0.00	0.01	0	0	3294	0.00	0.00	0.00	0	0
305	0.00	0.00	0.01	0	0	70	0.00	0.00	0.01	0	0	407	0.01	0.00	0.01	0	0	74	0.01	0.00	0.01	0	0
884	0.00	0.00	0.00	0	0	383	0.01	0.00	0.00	0	0	485	0.00	0.00	0.00	0	0	1283	0.00	0.00	0.00	0	0
53	0.00	0.00	0.00	0	0	1526	0.00	0.00	0.00	0	0							1620	0.01	0.00	0.00	0	0
365	0.01	0.00	0.00	0	0	382	0.01	0.00	0.01	0	0							1624	0.00	0.00	0.01	0	0
1724	0.01	0.00	0.00	0	0	756	0.01	0.00	0.00	0	0							774	0.00	0.00	0.00	0	0
1841	0.00	0.00	0.00	0	0													582	0.01	0.00	0.00	0	0
54	0.00	0.00	0.00	0	0													1147	0.00	0.00	0.00	0	0
1722	0.01	0.00	0.01	0	0													884	0.00	0.00	0.00	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.h: 677 - 0.13 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_3						Run gcc_3
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 677-682					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 677-677 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 996-996 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_AmazonLinux-2023/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22099-22099
				1914	0.01	0.00	0.02	50	100	1197	0.01	0.00	0.05	44.44	100
				1354	0.01	0.00	0.05	50	100	1617	0.01	0.00	0.01	44.44	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count

▶vec.h: 646 - 0.09 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions		Loop Source Regions
1252	0.01	0.00	0.05	100	100	1147	0.01	0.00	0.04	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count

▶ops.cpp: 8825 - 0.04 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826					Loop Source Regions		Loop Source Regions
		1523	0.01	0.00	0.04	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶hashtable_policy.h: 387 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions	/opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/new_allocator.h: 172-172 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/basic_string.h: 228-228 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/basic_string.h: 246-246 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/basic_string.h: 269-269 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/basic_string.h: 294-294 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/hashtable_policy.h: 387-387 /opt/arm/gcc-14.2.0_AmazonLinux-2023/include/c++/14.2.0/bits/hashtable_policy.h: 2058-2058					Loop Source Regions		Loop Source Regions
		3828	0.02	0.00	0.01	0	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶ops.cpp: 8885 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_3		Run gcc_3
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-47-249.ec2.internal/176-131-3962/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8885-8886					Loop Source Regions		Loop Source Regions
		1522	0.00	0.00	0.01	0	56.25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

Report Configuration

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 321.50 %

▶ops.cpp: 6210 - 3.49 %

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 3.02 %

▶ops.cpp: 6220 - 2.66 %

▶vec.cpp: 385 - 2.32 %

▶ops.cpp: 4325 - 1.80 %

▶binary-ops.cpp: 10 - 1.07 %

▶binary-ops.cpp: 18 - 0.93 %

▶quants.c: 2506 - 0.79 %

▶vec.cpp: 390 - 0.76 %

▶ggml-cpu.c: 3228 - 0.65 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.60 %

▶vec.h: 411 - 0.58 %

▶vec.h: 1045 - 0.46 %

▶vec.cpp: 311 - 0.42 %

▶vec.cpp: 231 - 0.40 %

▶vec.h: 491 - 0.39 %

▶ops.cpp: 6446 - 0.29 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.26 %

▶ops.cpp: 8817 - 0.25 %

▶<unknown>: 0 - 0.22 %

▶vec.h: 677 - 0.13 %

▶vec.h: 646 - 0.09 %

▶ops.cpp: 8825 - 0.04 %

▶hashtable_policy.h: 387 - 0.01 %

▶ops.cpp: 8885 - 0.01 %