Page 23 - 79_04
P. 23
Óscar
Miguel
Rivera
Borroto
&
col.
conjuntos
de
datos
de
la
Academia
Internacional
de
Química
Matemática,
disponibles
gratuitamente
(53);
la
base
de
datos
MDDR
(MDL
Drug
Data
Report),
comercial;
la
base
de
datos
WDI
(World
Drug
Index),
comercial
(54);
y
la
base
de
datos
WOMBAT
(World
of
Molecular
Bioactivity
Data),
comercial
(55).
La
tendencia
actual
de
las
bases
de
datos
quimioinformáticas
es
pasar
al
dominio
público
(56,
57).
Especial
atención
merecen
los
conjuntos
de
datos
para
propósitos
de
comparación
de
nuevas
herramientas
de
cribado.
En
la
literatura
se
recomienda
el
uso
de
los
conjuntos
de
datos
MUV
diseñadas
por
Rohrer
et
al.
(2009).
Estos
conjuntos
de
datos
de
compuestos
activos
y
señuelos
de
activos
“decoys”
(inactivos
confirmados)
fueron
construidos
usando
herramientas
estadísticas
de
diseño
experimental
basadas
en
la
técnica
del
análisis
refinado
de
los
vecinos
más
cercanos
y
están
orientadas
a
minimizar
problemas
encontrados
con
el
uso
de
las
métricas
de
desempeño
(vide
infra)
en
otros
conjuntos
de
validación
como
el
enriquecimiento
artificial,
donde
la
clasificación
es
causada
por
diferencias
en
propiedades
simples
y
usualmente
irrelevantes
entre
activos
y
decoys;
el
sesgo
de
análogos,
causada
por
la
tendencia
de
los
conjuntos
de
datos
a
sobre
representar
las
clases
de
activos
y
deriva
en
una
clasificación
sobreestimada
de
los
mismos.
Estos
dos
problemas
se
tienden
a
englobar
en
el
problema
denominado
sesgo
de
conjuntos
de
datos
de
referencia.
El
último
problema
de
este
tipo
se
refiere
a
la
varianza
de
los
resultados
de
validación,
causada
por
usar
conjuntos
indebidamente
desbalanceados
que
conducen
al
efecto
de
saturación
de
las
curvas
ROC
correspondientes
(58).
En
los
últimos
años,
algunos
autores
han
alertado
acerca
de
otro
tipo
de
problemas
más
sutiles
que
concierne
la
calidad
de
conjuntos
de
datos
altamente
referenciados
como
son
los
errores
estructurales,
presencia
de
compuestos
duplicados,
errores
de
correspondencia
de
los
datos
estructurales
con
las
mediciones
experimentales,
falta
de
reproducibilidad
en
las
mediciones
experimentales,
etc.
Los
hallazgos
sugieren
que
el
tener
estructuras
erróneas
representadas
por
descriptores
erróneos
deriva
en
un
efecto
perjudicial
para
el
desempeño
y
la
fiabilidad
de
las
predicciones
de
los
modelos
de
cribado.
Para
solucionar
estos
problemas
los
investigadores
proponen
se
utilicen
un
buen
número
de
potentes
herramientas
de
software
libre
así
como
una
última
etapa
de
inspección
“manual”
(59).
Hasta
el
momento,
la
comunidad
científica
internacional
no
ha
adoptado
ningún
conjunto
de
datos
estándar
para
la
comparación
de
medidas
de
similitud,
probablemente
por
la
imposibilidad
de
encontrar
un
grupo
único
de
moléculas
que
reagrupe
todas
las
necesidades
de
cribado
de
la
Quimioinformática
moderna
(39).
Por
este
motivo
se
ha
sugerido
que,
para
validar
un
método
nuevo,
los
investigadores
deben
presentar
al
menos
10
conjuntos
con
actividades
diversas
con
más
de
un
estándar
de
comparación
(47).
540