Page 100 - 78_04
P. 100

BORIS	
  GUZMÁN	
  FERNÁNDEZ	
  &	
  col	
  

	
  
función	
  de	
  discriminación	
  se	
  evalúa	
  con	
  el	
  parámetro	
  lambda	
  de	
  Wilks	
  empleando	
  
el	
   test	
   de	
   igualdad	
   de	
   las	
   medias	
   de	
   grupo	
   para	
   las	
   variables	
   de	
   la	
   función	
   de	
  
discriminación	
  (41-­-42).	
  

        La	
  razón	
  principal	
  por	
  la	
  cual	
  hemos	
  escogido	
  la	
  técnica	
  ALD,	
  se	
  debe	
  a	
  que	
  
de	
   10	
   de	
   los	
   49	
   compuestos	
   estudiados	
   (20	
   %	
   de	
   los	
   compuestos	
   estudiados)	
   no	
  
disponíamos	
   del	
   valor	
   de	
   CI50	
   y	
   mediante	
   el	
   ALD	
   se	
   pueden	
   tratar	
   valores	
  
discretos	
   de	
   la	
   propiedad	
   a	
   diferencia	
   de	
   lo	
   que	
   ocurre	
   con	
   otras	
   técnicas	
   como	
  
puede	
  ser	
  la	
  regresión	
  multilineal	
  (43).	
  

Diagramas	
  de	
  distribución	
  de	
  la	
  actividad	
  farmacológica,	
  DDAF	
  

        Una	
   vez	
   obtenida	
   la	
   función	
   discriminante,	
   es	
   interesante	
   realizar	
   el	
  
correspondiente	
   diagrama	
   de	
   distribución	
   de	
   la	
   actividad	
   farmacológica	
   (DDAF),	
  
para	
  cada	
  una	
  de	
  ellas.	
  	
  

        Estos	
   gráficos	
   son	
   útiles	
   para	
   determinar	
   el	
   intervalo	
   de	
   la	
   función	
  
discriminante	
  en	
  el	
  que	
  la	
  expectativa,	
  E,	
  o	
  probabilidad	
  de	
  encontrar	
  compuestos	
  
activos,	
   	
   es	
   máxima.	
   Los	
   DDAF	
   son	
   histogramas	
   en	
   los	
   que	
   se	
   representa	
   en	
  	
  
ordenadas	
  la	
  E	
  y	
  en	
  el	
  eje	
  de	
  abscisas,	
  el	
  valor	
  de	
  la	
  función	
  discriminante,	
  FD.	
  Para	
  
un	
   intervalo	
   arbitrario	
   de	
   FD,	
   se	
   puede	
   definir	
   la	
   expectativa	
   de	
   actividad,	
   Ea,	
  
como:	
  Ea	
  =	
  a/(i+1),	
  en	
  donde	
  a	
  representa	
  el	
  número	
  de	
  compuestos	
  activos	
  en	
  el	
  
intervalo	
   dividido	
   por	
   el	
   número	
   total	
   de	
   compuestos	
   activos,	
   e	
   i	
   representa	
   el	
  
número	
   de	
   compuestos	
   inactivos	
   en	
   el	
   intervalo	
   dividido	
   por	
   el	
   número	
   total	
   de	
  
compuestos	
  inactivos.	
  	
  

        La	
   probabilidad	
   de	
   inactividad	
   viene	
   definida	
   de	
   una	
   manera	
   simétrica	
  
como	
   Ei=i/(a+1).	
   Esta	
   representación	
   nos	
   da	
   una	
   buena	
   visualización	
   de	
   las	
  
regiones	
  de	
  mínimo	
  solapamiento,	
  y	
  permite	
  la	
  selección	
  de	
  intervalos	
  de	
  FD	
  en	
  los	
  
que	
  la	
  probabilidad	
  de	
  encontrar	
  compuestos	
  activos	
  es	
  máxima	
  (44).	
  

Análisis	
  de	
  validación	
  	
  

        La	
   calidad	
   predictiva	
   y	
   robustez	
   del	
   modelo	
   de	
   predicción	
   seleccionado	
  
debe	
   evaluarse	
   por	
   medio	
   de	
   un	
   test	
   de	
   validación	
   interna.	
   En	
   este	
   caso	
   se	
   han	
  
adoptado	
  dos	
  estrategias:	
  

•	
   La	
  primera	
  validación	
  ha	
  consistido	
  en	
  aplicar	
  el	
  método	
  Jack-­-knife	
  (45),	
  el	
  
cual	
   puede	
   definirse	
   como	
   un	
   procedimiento	
   estadístico	
   de	
   re-­-muestreo	
   para	
  
estimar	
   el	
   error	
   estándar	
   de	
   una	
   magnitud.	
   Este	
   método	
   consiste	
   en	
   extraer	
   un	
  
compuesto	
   de	
   la	
   serie	
   y	
   volver	
   a	
   calcular	
   el	
   modelo	
   utilizando	
   como	
   conjunto	
   de	
  
entrenamiento	
   N-­-1	
   compuestos	
   de	
   forma	
   que	
   la	
   propiedad	
   es	
   entonces	
   predicha	
  
para	
  el	
  elemento	
  eliminado.	
  Este	
  proceso	
  se	
  repite	
  para	
  todos	
  los	
  compuestos	
  de	
  la	
  
serie,	
  obteniendo	
  una	
  predicción	
  para	
  cada	
  uno.	
  

•	
   La	
   segunda	
   validación	
   o	
   validación	
   cruzada,	
   consiste	
   en	
   dividir	
   la	
   data	
   en	
  
varios	
   subgrupos	
   (5	
   en	
   nuestro	
   caso	
   con	
   11	
   compuestos	
   cada	
   uno).	
   Cuatro	
   de	
   los	
  

518	
  

	
  
   95   96   97   98   99   100   101   102   103   104   105