Vitenskapelige artikler m/referee

Reducing over-optimism in variable selection by cross model validation.

Det er lett å gjøre den feil at man over-tilpasser en matematisk modell til et gitt ”kalibrerings-datasett”, og dermed for et overoptimistisk inntrykk av modellens evne til å gi riktige prediksjoner fra data i nye prøver av samme type. Den mest åpenbare kilden til over-tilpasningen består i å estimere altfor mange uavhengige modell-parametre fra kalibreringsdataene. Dette ble i tradisjonell statistikk korrigert for ved hjelp av frihetsgradkompensasjon, og i kjemomertri, der man ofte ikke kan vite frihetsgradene, med ”resampling”-teknikker (kryss-validering og/eller bruk av uavhengig testsett av prøver og/eller boostrap).

En annen alvorlig kilde til over-tilpasning et at man prøver og feiler for mye: Man tester og forkaster mange alternative modellformuleringer, med ulike variabelkombinasjoner, ulike lineariseringer osv., og bare beholde den ”beste” modellformuleringen. For prøver man tilstrekkelig mange alternativer, kan man til slutt finne et som tilpasser seg perfekt til støyen i dataen!

Denne publikasjonen presenterer en generisk ”resampling”-teknikk som også garderer mot slik overdreven modell-optimering. Kryss-modellvalideringen er en gammel teknikk som er blitt gjen-oppdaget flere ganger i ulike fagdisipliner. Her innfører vi den i kjemometri og multivariat kalibrering, og undersøke dens statistiske egenskaper.

Nøkkeldata

Årstall 2006
Abstract Extensive optimisation of a mathematical model’s fit to a relatively small set of empirical data, may lead to over-optimistic validation results. If the assessment of the final, optimised model is based on the same validation method and the same input data that were used as basis for the extensive model optimisation, accumulated spurious correlations may appear as real predictive ability in the final model validation. An example of this is the use of extensive variable selection in multiple regression, based on a cross model validation scheme. To illustrate the over-optimism problem in optimisation based on conventional one-layered validation, a horror story is first shown: An artificial data set, with only random numbers in 500 X-variables and one Y-variable in 24 samples, was constructed and submitted to regression modelling. The model was optimised by stepwise variable selection. A very good apparent predictive ability for y from X was found in the final model by leave-one-out cross-validation (84%), after the number of X-variables had been reduced stepwise from 500 to 29. Finally, the performance of the cross model validation is tested in two large QSAR data sets.
Referanse Anderssen, E., Westad, F., Martens, H., Dyrstad, K. 2006. Reducing over-optimism in variable selection by cross model validation. Chemometrics and Intelligent Laboratory Systems, Vol 84, Issue 1-2,, pp 69-74.
Utgiver Chemometrics and Intelligent Laboratory Systems,

Relaterte personer

  • Harald Martens

    Seniorforsker

    Tlf: +47 64970291

    Mobil: +47 950 75 025