Page 70 - 78_04
P. 70
YANETSY
MACHADO
TUGORES
&
col
manera
que
si
?P
%>0,
se
considera
antimalárico.
Por
el
contrario,
valores
de
?P
%<0,
indica
la
presencia
de
casos
inactivos.
Se
han
evaluado
diferentes
parámetros
estadísticos
para
comprobar
la
calidad
y
robustez
de
los
modelos
obtenidos
como
la
?
de
Wilks,
el
valor
de
F
de
Fisher
(F)
y
el
cuadrado
de
la
distancia
de
Mahalanobis
(D2).
De
igual
forma
se
calcularon
los
parámetros:
exactitud
total
(Q),
coeficiente
de
correlación
de
Mattews
(C),
sensibilidad
(Sens),
especificidad
(Spec)
y
razón
de
falsa
alarma
(FAR)
(29--30).
Para
probar
la
robustez
y
el
poder
predictivo
de
los
modelos,
no
sólo
se
comparó
la
predicción
obtenida
por
los
modelos
con
la
real
de
la
SP
(validación
externa);
sino
que
también
se
llevó
a
cabo
la
validación
cruzada
(VC)
dejando
un
15
%
de
los
compuestos
fuera
de
la
SE
generando
nuevos
modelos
de
predicción
y
comprobando
el
comportamiento
de
la
exactitud
del
mismo.
Este
proceder
se
repite
tantas
veces
hasta
que
todos
los
casos
son
retirados
una
vez.
El
principio
de
parsimonia
(“Occam’s
Razor”)
fue
tomado
en
cuenta
para
la
selección
del
número
óptimo
de
variables
en
cada
modelo
(31).
2.1.3.1.
Sistema
multiclasificador
ensamblado
(SMCs)
basado
en
modelos
QSAR.
No
existe
todavía
un
clasificador
por
excelencia;
para
un
problema
determinado
es
difícil
seleccionar
cual
será
el
clasificador
que
logre
encontrar
una
mejor
frontera
de
decisión
para
separar
las
clases.
Por
ello,
se
utilizó
un
clasificador
ensamblado
o
multiclasificador,
a
partir
de
todos
los
modelos
QSAR
considerados.
Este
sistema
tiene
una
tendencia
general
a
mejorar
los
resultados
de
las
clasificaciones
combinando
adecuadamente
varios
clasificadores
(en
nuestro
caso
son
los
modelos
individuales)
(32,
33).
Una
de
las
condiciones
para
obtener
buenos
resultados
es
lograr
la
diversidad
de
los
modelos
individuales,
y
para
“cuantificar”
las
correlaciones
entre
ellos
fueron
seleccionadas
las
medidas
de
diversidad
de
desacuerdo
(D)
y
de
doble
fallo
(DF)
(34).
El
desacuerdo
se
basó
en
aquellos
casos
que
fueron
clasificados
de
manera
diferente
por
dos
modelos
individuales
(se
escoge
el
valor
máximo)
y
el
doble
fallo
tiene
en
cuenta
aquellos
casos
en
que
ambos
modelos
se
equivocan
en
su
clasificación
(escogiéndose
el
mínimo
valor).
De
esta
forma
quedan
seleccionados
los
modelos
con
mayor
diversidad
en
la
información
brindada
(34,
35).
El
método
escogido
para
realizar
el
SMCs
se
denomina
no
entrenado
(voto
no
ponderado)
donde
se
combina,
en
una
matriz,
los
?P
de
los
casos
por
todos
los
modelos
analizados
(expresando
la
probabilidad
de
ser
activos
o
inactivos).
Mediante
la
fusión
de
diferentes
funciones
matemáticas
(media,
mediana,
valor
466