OV - Compare Loops

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 349.06 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc_2/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131
2405	2.96	3.63	85.90	28.14	27.69	2205	2.94	3.82	88.58	28.14	27.69	2396	2.94	3.57	85.60	28.14	27.69	2186	2.92	4.00	88.98	28.14	27.69

Sum on 1 analyzed binary loop (libggml-cpu.so - 2405)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2205)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2396)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2186)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.cpp: 385 - 3.74 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1008-1034					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1009-1023 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1031-1034					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1008-1034					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1009-1023 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1031-1034
910	0.04	0.04	0.89	70.45	81.46	761	0.06	0.05	1.05	80	97.59	910	0.05	0.04	0.84	70.45	81.46	763	0.08	0.04	0.96	92.65	98.58

Sum on 1 analyzed binary loop (libggml-cpu.so - 910)						Sum on 1 analyzed binary loop (libggml-cpu.so - 761)						Sum on 1 analyzed binary loop (libggml-cpu.so - 910)						Sum on 1 analyzed binary loop (libggml-cpu.so - 763)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access

▶ops.cpp: 6210 - 2.57 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_1		Run gcc_2
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245
		780	0.09	0.06	1.40	1.79	10.16			783	0.10	0.05	1.17	2.3	10.27

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 780)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 783)
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count
		Loop Computation Issues								Loop Computation Issues
		Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
		Presence of a large number of scalar integer instructions					1			Presence of a large number of scalar integer instructions					1
		Control Flow Issues								Control Flow Issues
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Data Access Issues								Data Access Issues
		Presence of indirect access					1			Presence of indirect access
		Vectorization Roadblocks								Vectorization Roadblocks
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Presence of indirect access					1			Presence of indirect access					0

▶ops.cpp: 6220 - 2.22 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions
1442	0.06	0.04	1.04	0	12.26			1441	0.10	0.05	1.18	0	13.07

Sum on 1 analyzed binary loop (libggml-cpu.so - 1442)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1441)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis					Count	Analysis	Count
Loop Computation Issues								Loop Computation Issues
Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1			Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Control Flow Issues								Control Flow Issues
Presence of calls					1			Presence of calls					1
Data Access Issues								Data Access Issues
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1
Vectorization Roadblocks								Vectorization Roadblocks
Presence of calls					1			Presence of calls					1
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 1.62 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc_2/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc_2/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809
2368	0.04	0.02	0.36	77.23	48.22	2174	0.04	0.02	0.50	76.21	48.38	2360	0.04	0.01	0.36	77.23	48.22	2155	0.03	0.02	0.40	76.21	48.38

Sum on 1 analyzed binary loop (libggml-cpu.so - 2368)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2174)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2360)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2155)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 4325 - 1.28 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326
1282	0.03	0.01	0.32	94.12	95.59	1151	0.03	0.02	0.39	0	13.28	1281	0.03	0.01	0.27	88.89	91.67	1163	0.03	0.01	0.31	98.46	98.47

Sum on 1 analyzed binary loop (libggml-cpu.so - 1282)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1151)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1281)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1163)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 18 - 1.18 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
541	0.03	0.01	0.30	0	11.84	498	0.04	0.01	0.27	25	50	544	0.03	0.01	0.30	0	11.84	494	0.03	0.01	0.31	25	50

Sum on 1 analyzed binary loop (libggml-cpu.so - 541)						Sum on 1 analyzed binary loop (libggml-cpu.so - 498)						Sum on 1 analyzed binary loop (libggml-cpu.so - 544)						Sum on 1 analyzed binary loop (libggml-cpu.so - 494)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶binary-ops.cpp: 10 - 1.13 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
431	0.03	0.01	0.26	0	12.5	424	0.03	0.01	0.29	25	50	433	0.02	0.01	0.26	0	12.5	420	0.03	0.01	0.32	25	50

Sum on 1 analyzed binary loop (libggml-cpu.so - 431)						Sum on 1 analyzed binary loop (libggml-cpu.so - 424)						Sum on 1 analyzed binary loop (libggml-cpu.so - 433)						Sum on 1 analyzed binary loop (libggml-cpu.so - 420)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶quants.c: 2506 - 0.81 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575
2288	0.01	0.01	0.22	50.56	33.98	2072	0.01	0.01	0.21	49.72	34.67	2282	0.01	0.01	0.25	50.56	33.98	2052	0.01	0.01	0.14	49.44	34.59

Sum on 1 analyzed binary loop (libggml-cpu.so - 2288)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 2282)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Data Access Issues												Data Access Issues
Presence of constant non-unit stride data access					1							Presence of constant non-unit stride data access					1
Vectorization Roadblocks												Vectorization Roadblocks
Presence of constant non-unit stride data access					1							Presence of constant non-unit stride data access					1

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.69 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc_2/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc_2/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139
2388	0.39	0.01	0.18	0	25	2188	0.34	0.01	0.16	0	25	2379	0.30	0.01	0.14	0	25	2169	0.43	0.01	0.21	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 2169)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
																		Data Access Issues
																		Presence of constant non-unit stride data access					1
																		Vectorization Roadblocks
																		Presence of constant non-unit stride data access					1

▶ggml-cpu.c: 3228 - 0.62 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229
0	0.01	0.01	0.12	90.48	95.41	3	0.02	0.01	0.21	95.35	93.9	0	0.02	0.01	0.13	89.47	94.92	0	0.03	0.01	0.16	89.74	93.27

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.h: 411 - 0.53 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions
1757	0.02	0.01	0.14	100	100	1540	0.03	0.01	0.23	96.97	96.98	1751	0.02	0.01	0.16	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						Sum on 1 analyzed binary loop (libggml-cpu.so - 1540)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis	Count
						Data Access Issues
						Presence of constant non-unit stride data access					1
						Vectorization Roadblocks
						Presence of constant non-unit stride data access					1

▶vec.cpp: 231 - 0.39 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions
903	0.02	0.01	0.12	96	97	759	0.02	0.01	0.15	100	100	903	0.02	0.01	0.12	96	97

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis	Count

▶ops.cpp: 6446 - 0.31 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457
1437	0.01	0.00	0.06	35.29	19.85	790	0.01	0.00	0.07	42.86	33.93	1436	0.02	0.00	0.09	45.45	22.44	793	0.01	0.00	0.09	42.86	33.93

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.30 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/armclang_1/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions
2389	0.22	0.00	0.10	0	15.63	2186	0.19	0.00	0.09	0	15.63	2380	0.23	0.00	0.11	0	15.63

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis	Count

▶<unknown>: 0 - 0.22 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions						Loop Source Regions						Loop Source Regions						Loop Source Regions
2724	0.00	0.00	0.00	0	0	3828	0.02	0.00	0.01	0	0	1551	0.01	0.00	0.00	0	0	4213	0.01	0.00	0.00	0	0
2975	0.00	0.00	0.00	0	0	1648	0.01	0.00	0.00	0	0	2865	0.01	0.00	0.00	0	0	3916	0.02	0.00	0.01	0	0
2725	0.00	0.00	0.00	0	0	1671	0.01	0.00	0.00	0	0	3075	0.02	0.00	0.01	0	0	1717	0.00	0.00	0.00	0	0
2856	0.00	0.00	0.00	0	0	3977	0.01	0.00	0.00	0	0	3219	0.02	0.00	0.01	0	0	3947	0.00	0.00	0.00	0	0
2740	0.00	0.00	0.00	0	0	4159	0.01	0.00	0.00	0	0	1390	0.01	0.00	0.00	0	0	4064	0.00	0.00	0.00	0	0
2741	0.01	0.00	0.00	0	0	1221	0.00	0.00	0.00	0	0	3056	0.01	0.00	0.00	0	0	4616	0.00	0.00	0.00	0	0
2875	0.00	0.00	0.00	0	0	70	0.00	0.00	0.00	0	0	3216	0.01	0.00	0.00	0	0	3960	0.00	0.00	0.00	0	0
2873	0.00	0.00	0.00	0	0	1537	0.01	0.00	0.00	0	0	3267	0.01	0.00	0.00	0	0	3851	0.00	0.00	0.00	0	0
2858	0.00	0.00	0.00	0	0	62	0.00	0.00	0.00	0	0	3371	0.01	0.00	0.00	0	0	1693	0.00	0.00	0.00	0	0
1879	0.00	0.00	0.00	0	0	907	0.01	0.00	0.00	0	0	2858	0.01	0.00	0.00	0	0	4243	0.01	0.00	0.01	0	0
390	0.00	0.00	0.00	0	0	603	0.00	0.00	0.00	0	0	65	0.01	0.00	0.00	0	0	72	0.01	0.00	0.01	0	0
1760	0.01	0.00	0.01	0	0							1742	0.00	0.00	0.00	0	0	1665	0.00	0.00	0.01	0	0
65	0.00	0.00	0.00	0	0							1360	0.01	0.00	0.00	0	0	2121	0.01	0.00	0.00	0	0
1748	0.00	0.00	0.00	0	0													1569	0.01	0.00	0.00	0	0
305	0.00	0.00	0.00	0	0													2114	0.00	0.00	0.00	0	0
																		1567	0.01	0.00	0.01	0	0
																		61	0.00	0.00	0.00	0	0
																		768	0.00	0.00	0.00	0	0
																		210	0.00	0.00	0.00	0	0
																		863	0.00	0.00	0.00	0	0
																		576	0.00	0.00	0.00	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.h: 646 - 0.19 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653
1285	0.01	0.00	0.03	100	100	1150	0.01	0.00	0.04	100	100	1284	0.01	0.00	0.03	100	100	1165	0.01	0.00	0.05	100	100
						1535	0.01	0.00	0.02	100	100	1754	0.01	0.00	0.02	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶ops.cpp: 8817 - 0.17 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_1		Run gcc_2
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8817-8819					Loop Source Regions		Loop Source Regions
		1531	0.02	0.01	0.17	0	13.54

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶ops.cpp: 8825 - 0.03 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_1		Run gcc_2
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826					Loop Source Regions		Loop Source Regions
		1538	0.01	0.00	0.03	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶traits.cpp: 13 - 0.03 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_1						Run gcc_2
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/traits.cpp: 13-17					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/../../../../include/c++/14.2.0/bits/stl_iterator.h: 1102-1102 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/traits.cpp: 13-17					Loop Source Regions
		387	0.01	0.00	0.01	0	23.7	390	0.01	0.00	0.01	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis					Count	Analysis	Count

▶simd-mappings.h: 51 - 0.02 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_1		Run gcc_2
Loop Source Regions		Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8817-8819
						1565	0.00	0.00	0.02	0	16.41

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis	Count	Analysis					Count

▶vec.h: 710 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_1		Run gcc_2
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-131-5415/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 710-717					Loop Source Regions		Loop Source Regions
		1541	0.01	0.00	0.01	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

Report Configuration

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 349.06 %

▶vec.cpp: 385 - 3.74 %

▶ops.cpp: 6210 - 2.57 %

▶ops.cpp: 6220 - 2.22 %

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 1.62 %

▶ops.cpp: 4325 - 1.28 %

▶binary-ops.cpp: 18 - 1.18 %

▶binary-ops.cpp: 10 - 1.13 %

▶quants.c: 2506 - 0.81 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.69 %

▶ggml-cpu.c: 3228 - 0.62 %

▶vec.h: 411 - 0.53 %

▶vec.cpp: 231 - 0.39 %

▶ops.cpp: 6446 - 0.31 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.30 %

▶<unknown>: 0 - 0.22 %

▶vec.h: 646 - 0.19 %

▶ops.cpp: 8817 - 0.17 %

▶ops.cpp: 8825 - 0.03 %

▶traits.cpp: 13 - 0.03 %

▶simd-mappings.h: 51 - 0.02 %

▶vec.h: 710 - 0.01 %