Histoboard - Pathology Foundation Model Benchmarks

Back to Benchmarks

Plismbench
pathology
robustness
H&E

Robustness benchmark from Owkin evaluating embedding consistency across scanners and staining variations using cosine similarity and top-10 retrieval accuracy.

16 models evaluated

4 tasks

Organs:

multi-organ

Detailed Results

Model	Average rank	Average metric	Cosine Similarity Embedding Consistency	Top-10 Cross-Scanner Scanner Robustness	Top-10 Cross-Staining Stain Robustness	Top-10 Cross-Scanner/Staining Combined Robustness
1H0-mini	2.25	0.541	0.800	0.864	0.318	0.183
2GenBio-PathFM	2.75	0.522	0.768	0.709	0.408	0.203
3CONCH	3.50	0.498	0.846	0.752	0.241	0.155
4H-optimus-0	4.00	0.480	0.685	0.744	0.327	0.166
5Virchow2	4.25	0.464	0.777	0.609	0.306	0.163
6Midnight-12k	7.00	0.373	0.748	0.435	0.200	0.108
7Prov-GigaPath	8.75	0.333	0.570	0.592	0.118	0.054
8UNI2	8.75	0.332	0.591	0.501	0.190	0.046
9Kaiko ViT-B/8	9.00	0.325	0.764	0.346	0.147	0.045
10UNI	9.50	0.325	0.547	0.532	0.169	0.053
11GPFM	10.50	0.265	0.594	0.356	0.092	0.017
12PLIP	11.00	0.244	0.878	0.054	0.040	0.004
13Phikon	13.00	0.193	0.622	0.125	0.021	0.004
14Kaiko ViT-L/14	12.75	0.183	0.569	0.115	0.041	0.006
15Phikon-v2	14.50	0.164	0.557	0.064	0.030	0.003
16Hibou-L	14.50	0.147	0.490	0.061	0.030	0.008