| | | | | | | requested parallelism | walltime sum (s) | nb instances | any sync average per thread time (s) | any wait average per thread time (s) | parallelism overhead (%) | local speedup if perfectly balanced | global speedup if perfectly balanced |
start addr | function name | source location | level | ancestor thread num | invoker | parallel or teams | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 |
libqmckl.so.0.0.0:0x15193 | qmckl_compute_ao_vgl_hpc_gaussian | qmckl_ao.c:3283 | 0 | 0 | runtime | parallel | 1 | 2 | 4 | 8 | 16 | 26 | 52 | 74.246 | 38.780 | 19.243 | 12.837 | 6.076 | 4.412 | 5.795 | 101 | 101 | 101 | 101 | 101 | 101 | 101 | 261 E-6 | 0.790 | 0.503 | 2.873 | 1.052 | 1.062 | 95.3 E-3 | 32.9 E-6 | 0.790 | 0.503 | 2.873 | 1.052 | 1.062 | 95.2 E-3 | 0.00 | 2.04 | 2.61 | 22.4 | 17.3 | 24.1 | 1.64 | 1.000 | 1.021 | 1.027 | 1.288 | 1.209 | 1.317 | 1.017 | 1.000 | 1.014 | 1.017 | 1.179 | 1.117 | 1.164 | 1.011 |
libqmckl.so.0.0.0:0x1ca30 | qmckl_compute_ao_value_hpc_gaussian | qmckl_ao.c:2781 | 0 | 0 | runtime | parallel | 1 | 2 | 4 | 8 | 16 | 26 | 52 | 34.153 | 17.200 | 8.684 | 4.384 | 2.233 | 1.420 | 1.071 | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 86.7 E-6 | 510 E-6 | 542 E-6 | 900 E-6 | 1.21 E-3 | 1.99 E-3 | 2.98 E-3 | 12.0 E-6 | 449 E-6 | 487 E-6 | 850 E-6 | 1.17 E-3 | 1.93 E-3 | 2.90 E-3 | 0.00 | 0.00 | 0.01 | 0.02 | 0.05 | 0.14 | 0.28 | 1.000 | 1.000 | 1.000 | 1.000 | 1.001 | 1.001 | 1.003 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 |