PRIVIND INTERPRETAREA NIVELULUI DE CONFORMITATE INTERNĂ A TESTELOR EVALUATE CU AJUTORUL ALPHA AL CRONBACH

registrul

Prezentarea și evaluarea testelor oferite spre publicare pe site-ul web al Registrului național de testare necesită respectarea diferitelor criterii referitoare la validitate, fiabilitate, standarde, documentație disponibilă și alte caracteristici. Printre numeroasele proceduri prin care se evaluează testele, coerența internă a itemilor este unul dintre cei mai populari indicatori. Cu privire la această problemă dorim să atragem atenția autorilor și utilizatorilor testelor.

Întrebarea în discuție este: este necesar să se definească criterii universale, „absolute” atunci când se evaluează consistența internă a testelor și, în consecință, toate testele care nu îndeplinesc o cerință dată de consistență internă (de exemplu, alfa Cronbach ≥0, 70 ), trebuie definit ca inadecvat (și ca o consecință - inadecvat pentru utilizare)? Afirmația de mai jos prezintă argumente care nu sunt de acord cu o astfel de teză.

Semnificația coeficientului alfa de coerență internă al lui Cronbach este importantă, dar nu trebuie supraestimată. Depinde de natura constructului care evaluează scala. Dacă construcția este omogenă, alfa ridicat poate fi obținut cu un număr relativ mic de itemi, în timp ce dacă construcția este eterogenă, va fi necesară o scară mai lungă sau vom fi mulțumiți cu o consistență mai mică. Coerența este baza validității, deoarece în practică nu se poate realiza nicio validitate care să depășească consistența scalei, dar în același timp o consistență prea mare poate afecta negativ validitatea.

Valoarea alfa este o funcție a doi factori principali: nivelul mediu de intercorelații de articole și lungimea la test. Dacă prima este direct legată de ideea de coerență internă (a indicatorilor empirici care evaluează un construct dat), numărul de trăsături este irelevant (Clark & ​​Watson, 1995). Din acest punct de vedere, nivelul mediu de intercorelații este un indice de coerență internă mai util decât alfa (Clark și Watson, 1995) și cercetătorul ar trebui să se străduiască să nu crească singur coeficientul prin prelungirea scalei, ci pentru a realizează intercorelații mai puternice ale caracteristicilor incluse în acesta.

Cu toate acestea, corelațiile prea puternice dintre itemi (care conduc la alfa mare) sunt un indicator al suprapunerii conținutului lor și dau naștere așa-numitelor. „Paradoxul pierderii în greutate” (paradox de atenuare) - restrângerea conținutului variabilei care urmează să fie evaluată în detrimentul validității proiectului (astfel de teste sunt denumite și „prea specifice” sau „foarte concentrate”). În practică, alfa ridicat poate fi realizat cu ușurință utilizând un număr mic de formulări aproape identice, cu valori alfa foarte mari pe scări scurte, provocând probleme cu validitatea proiectării.

Exemplu (Clark & ​​Watson, 1995): Să presupunem că cercetătorul folosește următoarele trei elemente (întrebările nu sunt traduse pentru a reproduce ideea originală a autorilor): „De multe ori mă simt inconfortabil la petreceri.”, „Întâlnirile sociale mari mă neliniștesc.” Și „de obicei simțiți-vă anxietate la marile evenimente sociale. ”Întrucât aproape toată lumea ar răspunde la toate cele trei articole în același mod (pozitiv sau negativ), împreună nu ar crește semnificativ informațiile primite în comparație cu întrebarea individuală (în ciuda nivelului ridicat de coerență internă). Prin urmare, scara ar fi o măsură mai informativă și, prin urmare, mai valabilă a constructului dacă ar conține elemente mai diferențiate, corelându-se doar moderat între ele (Clark & ​​Watson, 1995, p. 316).

Din acest punct de vedere, este recomandat provizoriu un nivel mediu de intercorelații în intervalul 0,15-0,50, dar intervalul depinde de natura variabilei evaluate: construcție de conținut restrâns: 0,40-0,50 (Clark & ​​Watson, 1995) ).

În plus, conform standardelor pentru adaptarea testelor de limbi străine, testul original trebuie adaptat prin reproducerea tuturor trăsăturilor sale psihometrice, inclusiv a coeficienților de consistență internă. De exemplu, consistența scalei originale MMPI-2 și NEO PI-R este între 0,70 și 0,80. În adaptarea bulgară, acești coeficienți trebuie reproduși, nu îmbunătățiți, deoarece acest lucru duce la o schimbare a constructelor pe care le evaluează.

De asemenea, este necesar să se facă distincția între scară și fațetă. Fațeta este o subscală pe scara de bază care este utilizată pentru a obține o specificitate mai mare în interpretarea rezultatelor pe scara de bază.

Cerința minimă de nivel alfa de 0,70.

Este prezent în manualele moderne de psihometrie și testare psihologică și a fost formulat inițial în lucrarea lui J. Nunnaly (1978, citat în Goodwin & Goodwin, 1999, p. 414), dar „Cuvintele lui Nunnaly ar trebui greu înțelese ca definind o regulă absolută” (Goodwin și Goodwin, 1999, p. 415), deoarece este necesar să se ia în considerare ia în considerare factorii de mai sus care influențează valorile coerenței interne.

POZIȚIA STC PRIVIND EVALUAREA ȘI ÎNREGISTRAREA TESTULUI: Există argumente substanțiale împotriva formulării unei limite inferioare „universale”, necondiționate, a unui nivel acceptabil de coerență internă, al cărui eșec ar caracteriza automat testul ca fiind inadecvat. Dimpotrivă, nivelul de consistență internă trebuie evaluat în mod specific pentru fiecare test, în contextul constructului măsurat, scopul testului, natura eșantionului, omogenitatea, „dificultatea” și numărul de itemi, forma scalei de răspuns., etc. Prin urmare, aplicarea mecanică a criteriilor universale poate duce la o evaluare incorectă.

Exemplul cu SDQ ilustrează teza conform căreia un criteriu „universal” pentru o limită inferioară de consistență internă nu ar trebui aplicat necondiționat, fără a lua în considerare specificul testului dat. „Politica” NTC se bazează pe un principiu similar: limitele predefinite ale consistenței interne să servească drept bază doar pentru cea mai generală orientare, dar sarcina revizuirii și opinia experților bazată pe aceasta este o evaluare specifică specificului constructului măsurat., natura eșantionului, omogenitatea, „dificultatea”, numărul de itemi etc.

În acest sens, trebuie remarcat faptul că, conform modelului EFPA (versiunea 4.2.6), criteriile nu sunt absolute, sunt condiționate, iar standardele spun că comitetele de testare ar trebui să le utilizeze ca linii directoare generale. De ce este asta? De exemplu, IQ-ul WISC-IV este de fapt folosit ca bază pentru deciziile de diagnostic și, prin urmare, coerența acestuia trebuie să fie peste 0,85. Dar nu se justifică utilizarea aceluiași standard pentru subscala WIS/SVP, care are doar trei articole și este utilizată numai în scopuri descriptive.

În concluzie: revizuirea unui test atunci când acesta este inclus în Registrul național nu se bazează pe atribuirea mecanică a unui anumit număr de „stele”, în conformitate cu criterii predefinite. Revizuirea presupune o evaluare a testului specific, pentru care informațiile despre acesta în Registrul național sunt evident insuficiente. În acest scop, este necesar să vă familiarizați în detaliu cu testul în sine și, mai presus de toate, cu manualul pentru utilizarea acestuia (și, în unele cazuri, cu baza de date primară). Prin urmare, pentru un test dat, valori mai mici ale coerenței interne pot fi evaluate ca acceptabile, dar pentru alte instrumente - ca nesatisfăcătoare.

Sperăm că am fost de ajutor tuturor - autorii și utilizatorii testelor - în înțelegerea politicii, misiunii și funcțiilor STC.