Page 100 - 78_04
P. 100
BORIS
GUZMÁN
FERNÁNDEZ
&
col
función
de
discriminación
se
evalúa
con
el
parámetro
lambda
de
Wilks
empleando
el
test
de
igualdad
de
las
medias
de
grupo
para
las
variables
de
la
función
de
discriminación
(41--42).
La
razón
principal
por
la
cual
hemos
escogido
la
técnica
ALD,
se
debe
a
que
de
10
de
los
49
compuestos
estudiados
(20
%
de
los
compuestos
estudiados)
no
disponíamos
del
valor
de
CI50
y
mediante
el
ALD
se
pueden
tratar
valores
discretos
de
la
propiedad
a
diferencia
de
lo
que
ocurre
con
otras
técnicas
como
puede
ser
la
regresión
multilineal
(43).
Diagramas
de
distribución
de
la
actividad
farmacológica,
DDAF
Una
vez
obtenida
la
función
discriminante,
es
interesante
realizar
el
correspondiente
diagrama
de
distribución
de
la
actividad
farmacológica
(DDAF),
para
cada
una
de
ellas.
Estos
gráficos
son
útiles
para
determinar
el
intervalo
de
la
función
discriminante
en
el
que
la
expectativa,
E,
o
probabilidad
de
encontrar
compuestos
activos,
es
máxima.
Los
DDAF
son
histogramas
en
los
que
se
representa
en
ordenadas
la
E
y
en
el
eje
de
abscisas,
el
valor
de
la
función
discriminante,
FD.
Para
un
intervalo
arbitrario
de
FD,
se
puede
definir
la
expectativa
de
actividad,
Ea,
como:
Ea
=
a/(i+1),
en
donde
a
representa
el
número
de
compuestos
activos
en
el
intervalo
dividido
por
el
número
total
de
compuestos
activos,
e
i
representa
el
número
de
compuestos
inactivos
en
el
intervalo
dividido
por
el
número
total
de
compuestos
inactivos.
La
probabilidad
de
inactividad
viene
definida
de
una
manera
simétrica
como
Ei=i/(a+1).
Esta
representación
nos
da
una
buena
visualización
de
las
regiones
de
mínimo
solapamiento,
y
permite
la
selección
de
intervalos
de
FD
en
los
que
la
probabilidad
de
encontrar
compuestos
activos
es
máxima
(44).
Análisis
de
validación
La
calidad
predictiva
y
robustez
del
modelo
de
predicción
seleccionado
debe
evaluarse
por
medio
de
un
test
de
validación
interna.
En
este
caso
se
han
adoptado
dos
estrategias:
•
La
primera
validación
ha
consistido
en
aplicar
el
método
Jack--knife
(45),
el
cual
puede
definirse
como
un
procedimiento
estadístico
de
re--muestreo
para
estimar
el
error
estándar
de
una
magnitud.
Este
método
consiste
en
extraer
un
compuesto
de
la
serie
y
volver
a
calcular
el
modelo
utilizando
como
conjunto
de
entrenamiento
N--1
compuestos
de
forma
que
la
propiedad
es
entonces
predicha
para
el
elemento
eliminado.
Este
proceso
se
repite
para
todos
los
compuestos
de
la
serie,
obteniendo
una
predicción
para
cada
uno.
•
La
segunda
validación
o
validación
cruzada,
consiste
en
dividir
la
data
en
varios
subgrupos
(5
en
nuestro
caso
con
11
compuestos
cada
uno).
Cuatro
de
los
518