Comparison of scores of model cycle 38r1 (combination of research experiments and the current e-suite) and cycle 37r3 (the current operational model) verified by the respective analyses at 00UTC for 12 September 2011 to 16 December 2011 and 9 April 2012 to 2 May 2012 (64 cases in total).
continuous ranked probability score | mean absolute error | RMS error | anomaly correlation | ||||
---|---|---|---|---|---|---|---|
europe | ff | 850hPa | cf | ||||
em | |||||||
pf | |||||||
t | cf | ||||||
em | |||||||
pf | |||||||
u | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
v | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
z | 500hPa | cf | |||||
em | |||||||
pf | |||||||
1000hPa | cf | ||||||
em | |||||||
pf | |||||||
n.hem | ff | 850hPa | cf | ||||
em | |||||||
pf | |||||||
t | cf | ||||||
em | |||||||
pf | |||||||
u | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
v | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
z | 500hPa | cf | |||||
em | |||||||
pf | |||||||
1000hPa | cf | ||||||
em | |||||||
pf | |||||||
s.hem | ff | 850hPa | cf | ||||
em | |||||||
pf | |||||||
t | cf | ||||||
em | |||||||
pf | |||||||
u | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
v | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
z | 500hPa | cf | |||||
em | |||||||
pf | |||||||
1000hPa | cf | ||||||
em | |||||||
pf | |||||||
tropics | ff | 850hPa | cf | ||||
em | |||||||
pf | |||||||
t | cf | ||||||
em | |||||||
pf | |||||||
u | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf | |||||||
v | 200hPa | cf | |||||
em | |||||||
pf | |||||||
850hPa | cf | ||||||
em | |||||||
pf |
Score card provides a quick visual overview over the performance of the experiment scores compared to control. It is a simplified summary of verify error plots of various domains, scores, parameters etc.
Each error plot is converted into a sequence of symbols (e.g. ▼▾▾░░░░▴▲▲) where each symbol indicates for given time step whether or not the experiment is significantly better or worse than the control.
Symbol legend: for a given forecast step... (d: score difference, s: confidence interval width)
▲ Cy38r1 far better than Cy37r3 statistically significant (the confidence bar above zero by more than its height )(d/s>3)
▴ Cy38r1 better than Cy37r3 statistically significant (d/s≥1)
░ Cy38r1 better than Cy37r3, yet not statistically significant (d/s≥0.5)
░ not really any difference between Cy37r3 and Cy38r1
░ Cy38r1 worse than Cy37r3l, yet not statistically significant (d/s≤-0.5)
▾ Cy38r1 worse than Cy37r3 statistically significant (d/s≤-1)
▼ Cy38r1 far worse than Cy37r3 statistically significant (the confidence bar below zero by more than its height) (d/s<-3)