Vitenskapelige artikler m/referee

50-50 multivariate analysis of variance for collinear responses.

Moderne analyseinstrumenter gir oss ofte svært mange målevariabler. Disse variablene er som regel innbyrdes relaterte og dette stiller spesielle krav til databehandlingen. Kjemometriske regresjonsmetoder har vist seg å være effektive for analyse av slike data.

Klassisk forsøksdesign er et svært nyttig verktøy for eksperimentelt arbeid. Med basis i det statistiske ANOVA-rammeverket skaffes til veie pålitelig informasjon om de ulike forsøksvariablenes påvirkning.

Forsøksdesign kombinert med moderne analyseinstrumenter gir opphav til flere metodiske utfordringer. Denne artikkelen tar opp en av disse utfordringene - hvordan generalisere ordinær variansanalyse (ANOVA) slik at multivariable responser kan analyseres. Eksisterende signifikanstester basert på klassisk multivariabel ANOVA (MANOVA) er ofte verdiløse i praksis. Disse testene fungerer dårlig når man har svært mange korrelerte responser og metoden bryter sammen når antall responser overstiger antall observasjoner.

Dettet problemet er nært beslektet med kollineæritetsproblemet i mulitippel enkeltrespons-regresjon. I slike tilfeller er prinsipal komponent regresjon (PCR) en god metode som løser problemet med å estimere regresjonskoeffisientene. Basert på PCR kan man også teste om det overhodet er noen sammenheng mellom responsvariabelen og forklaringsvariablene. I denne artikkel foreslåes 50-50 F-testen som beregner SSMODEL basert på de k første komponentene. De neste d komponentene er ikke involvert i SSERROR og disse kalles buffer komponenter.

Tilsvarende ideer brukes til å utvikle en ny og forbedret MANOVA metode. Testene baseres fortsatt på klassiske testobservatorer og de tilhørende fordelingene. Men, dataenes dimensjonalitet er reduseres på to ulike måter. For hver test utføres en prinsipal komponent analyse basert på data som er justert for de andre leddene i modellen. De første k komponentene fungerer som responsvariabler og dermed er antall responser redusert. I tillegg brukes de neste d komponentene som buffer komponenter. Dette kan sees på som en reduksjon i antall frihetsgrader for feil. Prinsipal komponent dekomposisjonen avhenger av observerte data, men testene er allikevel eksakte. Parameterene, k og d, kan også bergenes fra dataene basert på forklart varians kriterier. Denne artikkelen foreslår en tommelfingerregel for dette - 50-50-regelen.

Den nye metoden illustreres med et eksempel fra pølseproduksjon. Fett og salt ble variert i henhold til et 6x3-design og farsene ble analysert med nær-infrarød spektroskopi. Det var en måling for hver fjerde nm i området 1100-2500 nm. Dermed har vi i alt 351 responsvariabler. Dette eksemplet illustrerer tydelig nytteverdien av den nye MANOVA metoden.

Nøkkeldata

Årstall 2002
Abstract Classical multivariate analysis-of-variance tests perform poorly in cases with several highly correlated responses and the tests collapse when the number of responses exceeds the number of observations. This paper presents a new method which handles this problem. The dimensionality of the data is reduced by using principal component decompositions and the final tests are still based on the classical test statistics and their distributions. The methodology is illustrated with an example from the production of sausages with responses from near infrared reflectance spectroscopy. A closely related method for testing relationships in uniresponse regression with collinear explanatory variables is also presented. The new test, which is called the 50-50 F-test, uses the first k components to calculate SSMODEL. The next d components are not involved in SSERROR and they are called buffer components.
Referanse Langsrud, Ø. 2002. 50-50 multivariate analysis of variance for collinear responses. The Statistician, Vol 51, 3, pp 305-317.
Utgiver The Statistician,