OV - Compare Loops

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 219.14 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc_4/_deps/kleidiai_download-src/kai/ukernels/matmul/matmul_clamp_f32_qsi8d32p_qsi4c32p/kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131-131
2405	3.36	3.80	53.40	28.14	27.69	2205	3.40	3.82	54.94	28.14	27.69	2479	3.30	3.73	54.94	28.14	27.69	2241	3.34	3.84	55.85	28.14	27.69

Sum on 1 analyzed binary loop (libggml-cpu.so - 2405)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2205)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2479)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2241)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶quants.c: 2506 - 55.98 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2558 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2565-2590					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2506-2506 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/arch/arm/quants.c: 2569-2575 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1122-1122 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1234-1234 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 4144-4144 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12569-12569 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12710-12710 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12893-12893 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21097-21097 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21435-21435 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25379-25379 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 25654-25654 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 28759-28759
2288	1.00	1.09	15.32	50.56	33.98	2072	0.91	0.98	14.16	49.72	34.67	2376	0.87	0.96	14.14	50.56	33.98	2114	0.78	0.85	12.37	49.44	34.59

Sum on 1 analyzed binary loop (libggml-cpu.so - 2288)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2072)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2376)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2114)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶ops.cpp: 6210 - 1.58 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6210-6211 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245
		780	0.08	0.06	0.82	1.79	10.16			820	0.09	0.05	0.76	2.22	10.59

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 780)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 820)
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count
		Loop Computation Issues								Loop Computation Issues
		Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
		Presence of a large number of scalar integer instructions					1			Presence of a large number of scalar integer instructions					1
		Control Flow Issues								Control Flow Issues
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Data Access Issues								Data Access Issues
		Presence of indirect access					1			Presence of indirect access
		Vectorization Roadblocks								Vectorization Roadblocks
		Presence of calls					1			Presence of calls					1
		Presence of 2 to 4 paths					1			Presence of 2 to 4 paths					0
		Presence of more than 4 paths					0			Presence of more than 4 paths					1
		Presence of indirect access					1			Presence of indirect access					0

▶ops.cpp: 6220 - 1.31 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6230 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6220-6220 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6229-6229 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6238-6245					Loop Source Regions
1442	0.07	0.05	0.66	0	12.26			1536	0.06	0.04	0.66	0	13.07

Sum on 1 analyzed binary loop (libggml-cpu.so - 1442)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1536)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis					Count	Analysis	Count
Loop Computation Issues								Loop Computation Issues
Presence of expensive FP instructions					1			Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1			Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Control Flow Issues								Control Flow Issues
Presence of calls					1			Presence of calls					1
Data Access Issues								Data Access Issues
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1
Vectorization Roadblocks								Vectorization Roadblocks
Presence of calls					1			Presence of calls					1
Presence of constant non-unit stride data access					1			Presence of constant non-unit stride data access					1

▶vec.cpp: 311 - 1.02 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 311-316					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12524-12524 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 26575-26575 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 311-311
				857	0.07	0.04	0.54	50	50	788	0.06	0.03	0.48	44.44	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 857)						Sum on 1 analyzed binary loop (libggml-cpu.so - 788)
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count
				Data Access Issues						Data Access Issues
				Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1
				Vectorization Roadblocks						Vectorization Roadblocks
				Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1

▶vec.h: 491 - 0.92 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 491-497					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 491-491 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12524-12524 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22092-22092 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 26575-26575
				1852	0.05	0.03	0.49	40	50	1623	0.05	0.03	0.43	27.59	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 1852)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1623)
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count
				Data Access Issues						Data Access Issues
				Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1
				Vectorization Roadblocks						Vectorization Roadblocks
				Presence of constant non-unit stride data access						Presence of constant non-unit stride data access					1

▶vec.cpp: 385 - 0.85 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1008-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1009-1023 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1031-1034 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 385-387					Loop Source Regions		Loop Source Regions
910	0.20	0.04	0.54	70.45	81.46	761	0.11	0.02	0.32	80	97.59

Sum on 1 analyzed binary loop (libggml-cpu.so - 910)						Sum on 1 analyzed binary loop (libggml-cpu.so - 761)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count
Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.cpp: 231 - 0.84 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 231-262					Loop Source Regions		Loop Source Regions
903	0.05	0.03	0.44	96	97	759	0.05	0.03	0.40	100	100

Sum on 1 analyzed binary loop (libggml-cpu.so - 903)						Sum on 1 analyzed binary loop (libggml-cpu.so - 759)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶vec.h: 411 - 0.77 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 411-458					Loop Source Regions		Loop Source Regions
1757	0.04	0.02	0.32	100	100	1540	0.05	0.03	0.45	96.97	96.98

Sum on 1 analyzed binary loop (libggml-cpu.so - 1757)						Sum on 1 analyzed binary loop (libggml-cpu.so - 1540)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count
Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 0.76 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 111-142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 151-258					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 2943-2943 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 6853-6853 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7154-7154 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 9945-9945 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10568-10568 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 10805-10805 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 15594-15594 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 16191-16191 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17374-17374 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17537-17537 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22069-22069 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22134-22134 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24797-24797 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 24809-24809 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96-96 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 262-262
2368	0.24	0.02	0.23	77.23	48.22	2174	0.21	0.01	0.18	76.21	48.38	2447	0.17	0.01	0.17	77.23	48.22	2211	0.20	0.01	0.18	76.21	48.38

Sum on 1 analyzed binary loop (libggml-cpu.so - 2368)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2174)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2447)						Sum on 1 analyzed binary loop (libggml-cpu.so - 2211)
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count
Loop Computation Issues						Loop Computation Issues						Loop Computation Issues						Loop Computation Issues
Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1	Presence of expensive FP instructions					1
Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1	Less than 10% of the FP ADD/SUB/MUL arithmetic operations are performed using FMA					1
Data Access Issues						Data Access Issues						Data Access Issues						Data Access Issues
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1
Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks						Vectorization Roadblocks
Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1	Presence of constant non-unit stride data access					1

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.42 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-128 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 137-139					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127-132 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 138-139
2388	0.41	0.01	0.11	0	25	2188	0.35	0.01	0.09	0	25	2462	0.41	0.01	0.11	0	25	2224	0.38	0.01	0.10	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶ggml-cpu.c: 3228 - 0.41 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/./ggml-impl.h: 389-404 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 3228-3229
0	0.02	0.01	0.09	90.48	95.41	3	0.02	0.01	0.11	95.35	93.9	0	0.03	0.01	0.12	91.67	49.31	1	0.03	0.01	0.09	86.21	47.41

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶binary-ops.cpp: 10 - 0.40 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 10-10 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
431	0.05	0.01	0.11	0	12.5	424	0.04	0.01	0.10	25	50	380	0.04	0.01	0.09	0	12.5	431	0.05	0.01	0.10	25	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.cpp: 390 - 0.38 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1057-1057 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 338-338 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 366-366 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 898-898 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 996-996 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1136-1136 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1696-1696 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 1724-1724 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 7618-7618 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 8905-8905 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 11874-11874 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12047-12047 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 17735-17735 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 21111-21111 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22099-22099 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 390-390
						794	0.12	0.03	0.38	84.85	48.48

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 794)
Analysis	Count	Analysis	Count	Analysis	Count	Analysis					Count
						Loop Computation Issues
						Presence of expensive FP instructions					1
						Data Access Issues
						Presence of constant non-unit stride data access					1
						Vectorization Roadblocks
						Presence of constant non-unit stride data access					1

▶vec.h: 1045 - 0.35 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1045-1063 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 1072-1072 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.cpp: 390-391					Loop Source Regions
				865	0.12	0.02	0.35	76.67	46.35

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		Sum on 1 analyzed binary loop (libggml-cpu.so - 865)						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count	Analysis	Count
				Loop Computation Issues
				Presence of expensive FP instructions					1
				Control Flow Issues
				Presence of 2 to 4 paths					1
				Data Access Issues
				Presence of constant non-unit stride data access					1
				Vectorization Roadblocks
				Presence of 2 to 4 paths					1
				Presence of constant non-unit stride data access					1

▶ops.cpp: 6446 - 0.31 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6456					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6446-6447 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 6453-6457
1437	0.02	0.01	0.08	35.29	19.85	790	0.01	0.00	0.06	42.86	33.93	1531	0.05	0.01	0.11	45.45	22.44	830	0.02	0.00	0.07	42.86	33.93

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶ops.cpp: 4325 - 0.30 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 4325-4326
1282	0.05	0.01	0.12	94.12	95.59	1151	0.05	0.01	0.12	0	13.28	1294	0.02	0.00	0.03	16.67	27.08	1194	0.02	0.00	0.03	17.78	27.78

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶binary-ops.cpp: 18 - 0.28 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 18-18 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/binary-ops.cpp: 31-32
541	0.04	0.01	0.07	0	11.84	498	0.03	0.00	0.06	25	50	484	0.04	0.01	0.09	0	11.84	515	0.02	0.00	0.05	25	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶<unknown>: 0 - 0.21 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions						Loop Source Regions						Loop Source Regions						Loop Source Regions
2724	0.00	0.00	0.00	0	0	3858	0.00	0.00	0.00	0	0	2869	0.00	0.00	0.00	0	0	4054	0.01	0.00	0.00	0	0
2975	0.02	0.00	0.01	0	0	3828	0.02	0.00	0.01	0	0	3075	0.01	0.00	0.00	0	0	4203	0.01	0.00	0.00	0	0
2565	0.00	0.00	0.00	0	0	2065	0.00	0.00	0.00	0	0	3369	0.02	0.00	0.00	0	0	4031	0.01	0.00	0.00	0	0
2568	0.00	0.00	0.00	0	0	1856	0.00	0.00	0.00	0	0	1392	0.00	0.00	0.00	0	0	4233	0.01	0.00	0.00	0	0
2558	0.00	0.00	0.00	0	0	3825	0.00	0.00	0.00	0	0	1387	0.00	0.00	0.00	0	0	4205	0.01	0.00	0.00	0	0
2725	0.00	0.00	0.00	0	0	3983	0.01	0.00	0.00	0	0	3056	0.00	0.00	0.00	0	0	3907	0.02	0.00	0.01	0	0
1252	0.01	0.00	0.00	0	0	3977	0.00	0.00	0.00	0	0	1557	0.00	0.00	0.00	0	0	4611	0.01	0.00	0.00	0	0
2873	0.00	0.00	0.00	0	0	4159	0.01	0.00	0.00	0	0	3077	0.00	0.00	0.00	0	0	847	0.01	0.00	0.00	0	0
1395	0.00	0.00	0.00	0	0	98	0.00	0.00	0.00	0	0	3219	0.01	0.00	0.00	0	0	67	0.01	0.00	0.00	0	0
2741	0.01	0.00	0.00	0	0	1215	0.00	0.00	0.00	0	0	2866	0.00	0.00	0.00	0	0	1625	0.01	0.00	0.00	0	0
2740	0.03	0.00	0.01	0	0	70	0.01	0.00	0.01	0	0	2844	0.00	0.00	0.00	0	0	103	0.00	0.00	0.00	0	0
2858	0.02	0.00	0.01	0	0	1537	0.00	0.00	0.00	0	0	97	0.00	0.00	0.00	0	0	2178	0.00	0.00	0.01	0	0
1748	0.01	0.00	0.00	0	0	2134	0.01	0.00	0.01	0	0	2421	0.00	0.00	0.00	0	0	1621	0.01	0.00	0.01	0	0
390	0.01	0.00	0.01	0	0	1150	0.01	0.00	0.01	0	0	59	0.00	0.00	0.00	0	0	2168	0.01	0.00	0.00	0	0
70	0.01	0.00	0.00	0	0	57	0.01	0.00	0.00	0	0	1855	0.01	0.00	0.00	0	0	583	0.00	0.00	0.00	0	0
108	0.00	0.00	0.00	0	0	247	0.00	0.00	0.00	0	0	1446	0.01	0.00	0.00	0	0	725	0.01	0.00	0.00	0	0
429	0.01	0.00	0.00	0	0	40	0.00	0.00	0.00	0	0	1449	0.00	0.00	0.00	0	0	35	0.00	0.00	0.00	0	0
1362	0.01	0.00	0.00	0	0	35	0.00	0.00	0.00	0	0	634	0.01	0.00	0.00	0	0
71	0.01	0.00	0.00	0	0							417	0.00	0.00	0.00	0	0
531	0.00	0.00	0.01	0	0
305	0.00	0.00	0.00	0	0
787	0.00	0.00	0.00	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.18 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/build/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/gcc/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/armclang_4/_deps/kleidiai_download-src/kai/ukernels/matmul/pack/kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115-118					Loop Source Regions
2389	0.17	0.00	0.05	0	15.63	2186	0.25	0.00	0.07	0	15.63	2463	0.24	0.00	0.07	0	15.63

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis	Count

▶ops.cpp: 8817 - 0.16 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8817-8819 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/simd-mappings.h: 51-51					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8818-8819 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826
		1531	0.03	0.01	0.10	0	13.54			1613	0.02	0.00	0.06	0	20.54

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count

▶ggml-cpu.c: 1183 - 0.11 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1183-1183 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1193-1194					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1183-1183 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1193-1194					Loop Source Regions
65	0.02	0.01	0.08	0	25			54	0.01	0.00	0.03	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis					Count	Analysis	Count

▶ggml-cpu.c: 1125 - 0.10 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1125-1130 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1142-1142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1198-1198 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1371-1379 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1386-1395					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1125-1130 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1142-1142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1371-1395					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1125-1130 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1142-1142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1198-1198 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1371-1379 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1386-1395					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1125-1130 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1142-1142 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1371-1395
64	0.01	0.00	0.03	0	23.86	62	0.01	0.00	0.02	0	24.02	53	0.01	0.00	0.02	0	23.86	66	0.01	0.00	0.03	0	23.96

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis					Count	Analysis					Count

▶vec.h: 677 - 0.08 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4						Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 677-682					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 677-677 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 996-996 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 12531-12531 /opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/include/arm_neon.h: 22099-22099
				1295	0.01	0.00	0.01	50	50	1198	0.01	0.00	0.01	44.44	50
				1858	0.01	0.00	0.03	50	50	1618	0.01	0.00	0.02	44.44	50

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis					Count	Analysis					Count

▶vec.h: 646 - 0.05 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 646-653					Loop Source Regions		Loop Source Regions
1760	0.01	0.00	0.02	100	100	1535	0.01	0.00	0.02	100	100
1285	0.01	0.00	0.01	100	100

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis					Count	Analysis	Count	Analysis	Count

▶ggml-cpu.c: 1193 - 0.05 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1193-1194					Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 1193-1194
		59	0.01	0.00	0.03	0	21.53			63	0.01	0.00	0.02	0	21.53

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis					Count

▶traits.cpp: 13 - 0.04 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4						Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/traits.cpp: 13-17					Loop Source Regions	/opt/arm/gcc-14.2.0_Ubuntu-20.04/lib/gcc/aarch64-linux-gnu/14.2.0/../../../../include/c++/14.2.0/bits/stl_iterator.h: 1102-1102 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/traits.cpp: 13-17					Loop Source Regions
		387	0.01	0.00	0.03	0	23.7	347	0.01	0.00	0.01	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis					Count	Analysis	Count

▶ops.cpp: 8825 - 0.03 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ops.cpp: 8825-8826					Loop Source Regions		Loop Source Regions
		1538	0.01	0.00	0.03	0	0

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶kleidiai.cpp: 535 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default		Run gcc_default						Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp: 535-540 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/kleidiai/kleidiai.cpp: 547-547					Loop Source Regions		Loop Source Regions
		2144	0.02	0.00	0.01	0	25

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis					Count	Analysis	Count	Analysis	Count

▶ggml-cpu.c: 2879 - 0.01 %

ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)
Run orig_default		Run gcc_default		Run armclang_4		Run gcc_4
Loop Source Regions		Loop Source Regions		Loop Source Regions		Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 2879-2879 /home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/ggml-cpu.c: 2886-2898
						74	0.01	0.00	0.01	0	15.63

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis	Count	Analysis	Count	Analysis	Count	Analysis					Count

▶vec.h: 710 - 0.01 %

ASM Loop ID	Max Time Over Threads (s)	Time w.r.t. Wall Time (s)	Cov (%)	Vect. Ratio (%)	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)	ASM Loop ID	Vector Length Use (%)
Run orig_default						Run gcc_default		Run armclang_4		Run gcc_4
Loop Source Regions	/home/eoseret/Tools/QaaS/qaas_runs/ip-172-31-18-66/176-138-1719/llama.cpp/build/llama.cpp/ggml/src/ggml-cpu/vec.h: 710-717					Loop Source Regions		Loop Source Regions		Loop Source Regions
1758	0.01	0.00	0.01	96	97

No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.						No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.		No Optimizer analysis found for any assembly loop. More loops can be analyzed using option --optimizer-loop-count.
Analysis					Count	Analysis	Count	Analysis	Count	Analysis	Count

Report Configuration

Loops

▶kai_matmul_clamp_f32_qsi8d32p4x8_qsi4c32p4x8_16x4_neon_i8mm.c: 131 - 219.14 %

▶quants.c: 2506 - 55.98 %

▶ops.cpp: 6210 - 1.58 %

▶ops.cpp: 6220 - 1.31 %

▶vec.cpp: 311 - 1.02 %

▶vec.h: 491 - 0.92 %

▶vec.cpp: 385 - 0.85 %

▶vec.cpp: 231 - 0.84 %

▶vec.h: 411 - 0.77 %

▶kai_lhs_quant_pack_qsi8d32p4x8sb_f32_neon.c: 96 - 0.76 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 127 - 0.42 %

▶ggml-cpu.c: 3228 - 0.41 %

▶binary-ops.cpp: 10 - 0.40 %

▶vec.cpp: 390 - 0.38 %

▶vec.h: 1045 - 0.35 %

▶ops.cpp: 6446 - 0.31 %

▶ops.cpp: 4325 - 0.30 %

▶binary-ops.cpp: 18 - 0.28 %

▶<unknown>: 0 - 0.21 %

▶kai_rhs_pack_nxk_qsi4c32pscalef16_qsu4c32s16s0.c: 115 - 0.18 %

▶ops.cpp: 8817 - 0.16 %

▶ggml-cpu.c: 1183 - 0.11 %

▶ggml-cpu.c: 1125 - 0.10 %

▶vec.h: 677 - 0.08 %

▶vec.h: 646 - 0.05 %

▶ggml-cpu.c: 1193 - 0.05 %

▶traits.cpp: 13 - 0.04 %

▶ops.cpp: 8825 - 0.03 %

▶kleidiai.cpp: 535 - 0.01 %

▶ggml-cpu.c: 2879 - 0.01 %

▶vec.h: 710 - 0.01 %