Det er lett å gjøre den feil at man over-tilpasser en matematisk modell til et gitt ”kalibrerings-datasett”, og dermed for et overoptimistisk inntrykk av modellens evne til å gi riktige prediksjoner fra data i nye prøver av samme type. Den mest åpenbare kilden til over-tilpasningen består i å estimere altfor mange uavhengige modell-parametre fra kalibreringsdataene. Dette ble i tradisjonell statistikk korrigert for ved hjelp av frihetsgradkompensasjon, og i kjemomertri, der man ofte ikke kan vite frihetsgradene, med ”resampling”-teknikker (kryss-validering og/eller bruk av uavhengig testsett av prøver og/eller boostrap).
En annen alvorlig kilde til over-tilpasning et at man prøver og feiler for mye: Man tester og forkaster mange alternative modellformuleringer, med ulike variabelkombinasjoner, ulike lineariseringer osv., og bare beholde den ”beste” modellformuleringen. For prøver man tilstrekkelig mange alternativer, kan man til slutt finne et som tilpasser seg perfekt til støyen i dataen!
Denne publikasjonen presenterer en generisk ”resampling”-teknikk som også garderer mot slik overdreven modell-optimering. Kryss-modellvalideringen er en gammel teknikk som er blitt gjen-oppdaget flere ganger i ulike fagdisipliner. Her innfører vi den i kjemometri og multivariat kalibrering, og undersøke dens statistiske egenskaper.