Page 102 - 78_04
P. 102

BORIS	
  GUZMÁN	
  FERNÁNDEZ	
  &	
  col	
  

	
  
        La	
   matriz	
   de	
   clasificación	
   obtenida	
   para	
   el	
   modelo	
   matemático-­-topológico	
  

seleccionado	
  (ver	
  Tabla	
  2),	
  es	
  muy	
  significativa:	
  el	
  100%	
  de	
  los	
  compuestos	
  activos	
  
(28	
   de	
   28	
   compuestos)	
   son	
   clasificados	
   correctamente,	
   así	
   como	
   el	
   85,7%	
   del	
  
grupo	
   inactivo	
   (18	
   de	
   21	
   compuestos)	
   lo	
   que	
   representa	
   un	
   porcentaje	
   de	
   acierto	
  
medio	
  del	
  93%.	
  	
  

     	
   El	
   modelo	
   fue	
   sometido	
   a	
   dos	
   análisis	
   de	
   validación	
   interna:	
   método	
   de	
  
Jack-­-knife	
  o	
  leave-­-one-­-out,	
  así	
  como	
  una	
  cross-­-validation	
  o	
  	
  validación	
  cruzada.	
  El	
  
primero	
  tal	
  y	
  cómo	
  explicamos	
  en	
  párrafos	
  anteriores,	
  consistió	
  en	
  una	
  validación	
  
interna	
   con	
   pérdida	
   de	
   un	
   compuesto	
   y	
   posterior	
   predicción	
   del	
   mismo	
   por	
   el	
  
modelo.	
  	
  	
  

        La	
  validación	
  del	
  modelo	
  siguiendo	
  el	
  método	
  de	
  Jack-­-knifed,	
  para	
  el	
  grupo	
  
de	
   entrenamiento,	
   muestra	
   una	
   matriz	
   de	
   clasificación	
   en	
   la	
   que	
   26	
   de	
   28	
  
compuestos	
   activos	
   son	
   clasificados	
   correctamente	
   (93%)	
   y	
   18	
   de	
   21	
   compuestos	
  
inactivos	
   fueron	
   correctamente	
   dispuestos	
   por	
   el	
   modelo	
   (86%).	
   Obteniendo	
   por	
  
tanto,	
   un	
   porcentaje	
   de	
   correcta	
   clasificación	
   global	
   del	
   90	
   %.	
   Por	
   lo	
   que	
   la	
   FD	
  
(Ec.1)	
   para	
   la	
   búsqueda	
   de	
   compuestos	
   con	
   actividad	
   anti-­-tripanosómica	
   supera	
  
claramente	
   este	
   primer	
   test	
   de	
   validación	
   interna,	
   demostrando	
   ser	
   un	
   modelo	
  
robusto.	
  

        Asimismo,	
   se	
   realizó	
   una	
   segunda	
   prueba	
   de	
   validación	
   interna	
   al	
   modelo	
  
(Ec.1).	
  	
  

        Para	
   llevar	
   a	
   cabo	
   este	
   test	
   de	
   validación	
   cruzada,	
   se	
   dividió	
   el	
   grupo	
  
estudiado	
  en	
  cinco	
  subgrupos	
  (CV1-­-CV5):	
  serie	
  CV1	
  (1,	
  5,	
  7,	
  13,	
  20,	
  21,	
  28,	
  30,	
  36,	
  
40,	
  45),	
  serie	
  CV2	
  (2,	
  8,	
  9,	
  15,	
  22,	
  23,	
  31,	
  34,	
  38,	
  42,	
  46),	
  serie	
  CV3	
  (3,	
  10,	
  14,	
  16,	
  24,	
  
25,	
  32,	
  37,	
  41,	
  43,	
  47),	
  serie	
  CV4	
  (4,	
  11,	
  17,	
  18,	
  26,	
  29,	
  33,	
  39,	
  44,	
  48),	
  serie	
  CV5	
  (6,	
  
12,	
   19,	
   21,	
   27,	
   30,	
   35,	
   40,	
   45,	
   49).	
   Estas	
   series	
   corresponden	
   en	
   el	
   estudio	
   de	
  
validación	
   cruzada	
   al	
   grupo	
   de	
   test	
   (es	
   decir,	
   no	
   participan	
   en	
   la	
   elaboración	
   del	
  
modelo),	
   mientras	
   que	
   los	
   compuestos	
   restantes	
   se	
   asignan	
   al	
   grupo	
   de	
  
entrenamiento.	
  	
  

        En	
  la	
  Tabla	
  2,	
  se	
  muestran	
  los	
  valores	
  de	
  ?	
  (lambda	
  de	
  Wilks)	
  y	
  la	
  matriz	
  de	
  
clasificación	
  para	
  los	
  compuestos	
  pertenecientes	
  tanto	
  al	
  grupo	
  de	
  entrenamiento	
  
como	
  al	
  grupo	
  test.	
  	
  

        La	
   variabilidad	
   de	
   ?	
   es	
   pequeña	
   para	
   cada	
   serie	
   y	
   el	
   valor	
   promedio	
   de	
   ?	
  
tras	
  cinco	
  ensayos	
  de	
  validación	
  cruzada,	
  es	
  muy	
  similar	
  al	
  obtenido	
  con	
  el	
  modelo	
  
seleccionado	
  (0,349).	
  Por	
  lo	
  que	
  podemos	
  afirmar	
  que	
  el	
  modelo	
  seleccionado	
  para	
  
la	
  búsqueda	
  de	
  compuestos	
  con	
  actividad	
  anti-­-tripanosómica	
  es	
  robusto.	
  

        La	
   Figura	
   1,	
   muestra	
   el	
   diagrama	
   de	
   distribución	
   de	
   la	
   actividad	
   anti-­-
trypanosómica	
  obtenido	
  a	
  partir	
  del	
  análisis	
  lineal	
  discriminante	
  realizado.	
  	
  	
  

520	
  

	
  
   97   98   99   100   101   102   103   104   105   106   107