| | | | | | | requested parallelism | walltime sum (s) | nb instances | any sync average per thread time (s) | any wait average per thread time (s) | parallelism overhead (%) | local speedup if perfectly balanced | global speedup if perfectly balanced |
start addr | function name | source location | level | ancestor thread num | invoker | parallel or teams | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 | m1o1 | m1o2 | m1o4 | m1o8 | m1o16 | m1o26 | m1o52 |
libqmckl.so.0.0.0:0x29d83 | qmckl_compute_ao_vgl_hpc_gaussian | qmckl_ao.c:3283 | 0 | 0 | runtime | parallel | 1 | 2 | 4 | 8 | 16 | 26 | 52 | 59.637 | 29.807 | 15.086 | 7.738 | 4.173 | 2.849 | 3.044 | 501 | 501 | 501 | 501 | 501 | 501 | 501 | 327 E-6 | 22.5 E-3 | 0.298 | 0.256 | 0.231 | 0.141 | 0.164 | 29.6 E-6 | 22.2 E-3 | 0.298 | 0.256 | 0.231 | 0.141 | 0.163 | 0.00 | 0.08 | 1.97 | 3.31 | 5.54 | 4.95 | 5.38 | 1.000 | 1.001 | 1.020 | 1.034 | 1.059 | 1.052 | 1.057 | 1.000 | 1.000 | 1.013 | 1.022 | 1.037 | 1.033 | 1.042 |
libqmckl.so.0.0.0:0x31620 | qmckl_compute_ao_value_hpc_gaussian | qmckl_ao.c:2781 | 0 | 0 | runtime | parallel | 1 | 2 | 4 | 8 | 16 | 26 | 52 | 30.629 | 15.360 | 7.647 | 3.873 | 1.983 | 1.271 | 0.759 | 500 | 500 | 500 | 500 | 500 | 500 | 500 | 283 E-6 | 1.58 E-3 | 2.36 E-3 | 3.49 E-3 | 4.38 E-3 | 7.03 E-3 | 6.82 E-3 | 59.1 E-6 | 1.34 E-3 | 2.14 E-3 | 3.23 E-3 | 4.14 E-3 | 6.75 E-3 | 6.53 E-3 | 0.00 | 0.01 | 0.03 | 0.09 | 0.22 | 0.55 | 0.90 | 1.000 | 1.000 | 1.000 | 1.001 | 1.002 | 1.006 | 1.009 | 1.000 | 1.000 | 1.000 | 1.000 | 1.001 | 1.002 | 1.002 |