Page 23 - 79_04
P. 23

Óscar	
  Miguel	
  Rivera	
  Borroto	
  &	
  col.	
  

	
  
conjuntos	
   de	
   datos	
   de	
   la	
   Academia	
   Internacional	
   de	
   Química	
   Matemática,	
  
disponibles	
   gratuitamente	
   (53);	
   la	
   base	
   de	
   datos	
   MDDR	
   (MDL	
   Drug	
   Data	
   Report),	
  
comercial;	
   la	
   base	
   de	
   datos	
   WDI	
   (World	
   Drug	
   Index),	
   comercial	
   (54);	
   y	
   la	
   base	
   de	
  
datos	
   WOMBAT	
   (World	
   of	
   Molecular	
   Bioactivity	
   Data),	
   comercial	
   (55).	
   La	
  
tendencia	
   actual	
   de	
   las	
   bases	
   de	
   datos	
   quimioinformáticas	
   es	
   pasar	
   al	
   dominio	
  
público	
  (56,	
  57).	
  

        Especial	
   atención	
   merecen	
   los	
   conjuntos	
   de	
   datos	
   para	
   propósitos	
   de	
  
comparación	
  de	
  nuevas	
  herramientas	
  de	
  cribado.	
  En	
  la	
  literatura	
  se	
  recomienda	
  el	
  
uso	
   de	
   los	
   conjuntos	
   de	
   datos	
   MUV	
   diseñadas	
   por	
   Rohrer	
   et	
   al.	
   (2009).	
   Estos	
  
conjuntos	
  de	
  datos	
  de	
  compuestos	
  activos	
  y	
  señuelos	
  de	
  activos	
  “decoys”	
  (inactivos	
  
confirmados)	
   fueron	
   construidos	
   usando	
   herramientas	
   estadísticas	
   de	
   diseño	
  
experimental	
  basadas	
  en	
  la	
  técnica	
  del	
  análisis	
  refinado	
  de	
  los	
  vecinos	
  más	
  cercanos	
  
y	
   están	
   orientadas	
   a	
   minimizar	
   problemas	
   encontrados	
   con	
   el	
   uso	
   de	
   las	
   métricas	
  
de	
   desempeño	
   (vide	
   infra)	
   en	
   otros	
   conjuntos	
   de	
   validación	
   como	
   el	
  
enriquecimiento	
   artificial,	
   donde	
   la	
   clasificación	
   es	
   causada	
   por	
   diferencias	
   en	
  
propiedades	
  simples	
  y	
  usualmente	
  irrelevantes	
  entre	
  activos	
  y	
  decoys;	
  el	
  sesgo	
  de	
  
análogos,	
   causada	
   por	
   la	
   tendencia	
   de	
   los	
   conjuntos	
   de	
   datos	
   a	
   sobre	
   representar	
  
las	
   clases	
   de	
   activos	
   y	
   deriva	
   en	
   una	
   clasificación	
   sobreestimada	
   de	
   los	
   mismos.	
  
Estos	
   dos	
   problemas	
   se	
   tienden	
   a	
   englobar	
   en	
   el	
   problema	
   denominado	
   sesgo	
   de	
  
conjuntos	
   de	
   datos	
   de	
   referencia.	
   El	
   último	
   problema	
   de	
   este	
   tipo	
   se	
   refiere	
   a	
   la	
  
varianza	
  de	
  los	
  resultados	
  de	
  validación,	
  causada	
  por	
  usar	
  conjuntos	
  indebidamente	
  
desbalanceados	
   que	
   conducen	
   al	
   efecto	
   de	
   saturación	
   de	
   las	
   curvas	
   ROC	
  
correspondientes	
  (58).	
  En	
  los	
  últimos	
  años,	
  algunos	
  autores	
  han	
  alertado	
  acerca	
  de	
  
otro	
  tipo	
  de	
  problemas	
  más	
  sutiles	
  que	
  concierne	
  la	
  calidad	
  de	
  conjuntos	
  de	
  datos	
  
altamente	
   referenciados	
   como	
   son	
   los	
   errores	
   estructurales,	
   presencia	
   de	
  
compuestos	
  duplicados,	
  errores	
  de	
  correspondencia	
  de	
  los	
  datos	
  estructurales	
  con	
  
las	
   mediciones	
   experimentales,	
   falta	
   de	
   reproducibilidad	
   en	
   las	
   mediciones	
  
experimentales,	
   etc.	
   Los	
   hallazgos	
   sugieren	
   que	
   el	
   tener	
   estructuras	
   erróneas	
  
representadas	
   por	
   descriptores	
   erróneos	
   deriva	
   en	
   un	
   efecto	
   perjudicial	
   para	
   el	
  
desempeño	
   y	
   la	
   fiabilidad	
   de	
   las	
   predicciones	
   de	
   los	
   modelos	
   de	
   cribado.	
   Para	
  
solucionar	
   estos	
   problemas	
   los	
   investigadores	
   proponen	
   se	
   utilicen	
   un	
   buen	
  
número	
  de	
  potentes	
  herramientas	
  de	
  software	
  libre	
  así	
  como	
  una	
  última	
  etapa	
  de	
  
inspección	
  “manual”	
  (59).	
  

        Hasta	
   el	
   momento,	
   la	
   comunidad	
   científica	
   internacional	
   no	
   ha	
   adoptado	
  
ningún	
   conjunto	
   de	
   datos	
   estándar	
  para	
  la	
  comparación	
  de	
  medidas	
  de	
  similitud,	
  
probablemente	
  por	
  la	
  imposibilidad	
  de	
  encontrar	
  un	
  grupo	
  único	
  de	
  moléculas	
  que	
  
reagrupe	
  todas	
  las	
  necesidades	
  de	
  cribado	
  de	
  la	
  Quimioinformática	
  moderna	
  (39).	
  
Por	
   este	
   motivo	
   se	
   ha	
   sugerido	
   que,	
   para	
   validar	
   un	
   método	
   nuevo,	
   los	
  
investigadores	
   deben	
   presentar	
   al	
   menos	
   10	
   conjuntos	
   con	
   actividades	
   diversas	
  
con	
  más	
  de	
  un	
  estándar	
  de	
  comparación	
  (47).	
  

540	
  

	
  
   18   19   20   21   22   23   24   25   26   27   28