Page 70 - 78_04
P. 70

YANETSY	
  MACHADO	
  TUGORES	
  &	
  col	
  

	
  
manera	
   que	
   si	
   ?P	
   %>0,	
   se	
   considera	
   antimalárico.	
   Por	
   el	
   contrario,	
   valores	
   de	
   ?P	
  
%<0,	
  indica	
  la	
  presencia	
  de	
  casos	
  inactivos.	
  

	
  	
   Se	
   han	
   evaluado	
   diferentes	
   parámetros	
   estadísticos	
   para	
   comprobar	
   la	
  
calidad	
   y	
   robustez	
   de	
   los	
   modelos	
   obtenidos	
   como	
   la	
   ?	
   de	
   Wilks,	
   el	
   valor	
   de	
   F	
   de	
  
Fisher	
   (F)	
   y	
   el	
   cuadrado	
   de	
   la	
   distancia	
   de	
   Mahalanobis	
   (D2).	
   De	
   igual	
   forma	
   se	
  
calcularon	
   los	
   parámetros:	
   exactitud	
   total	
   (Q),	
   coeficiente	
   de	
   correlación	
   de	
  
Mattews	
  (C),	
  sensibilidad	
  (Sens),	
  especificidad	
  (Spec)	
  y	
  razón	
  de	
  falsa	
  alarma	
  (FAR)	
  
(29-­-30).	
  	
  

        Para	
   probar	
   la	
   robustez	
   y	
   el	
   poder	
   predictivo	
   de	
   los	
   modelos,	
   no	
   sólo	
   se	
  
comparó	
   la	
   predicción	
   obtenida	
   por	
   los	
   modelos	
   con	
   la	
   real	
   de	
   la	
   SP	
   (validación	
  
externa);	
  sino	
  que	
  también	
  se	
  llevó	
  a	
  cabo	
  la	
  validación	
  cruzada	
  (VC)	
  dejando	
  un	
  15	
  
%	
   de	
   los	
   compuestos	
   fuera	
   de	
   la	
   SE	
   generando	
   nuevos	
   modelos	
   de	
   predicción	
   y	
  
comprobando	
   el	
   comportamiento	
   de	
   la	
   exactitud	
   del	
   mismo.	
   Este	
   proceder	
   se	
  
repite	
  tantas	
  veces	
  hasta	
  que	
  todos	
  los	
  casos	
  son	
  retirados	
  una	
  vez.	
  	
  

        El	
   principio	
   de	
   parsimonia	
   (“Occam’s	
   Razor”)	
   fue	
   tomado	
   en	
   cuenta	
   para	
   la	
  
selección	
  del	
  número	
  óptimo	
  de	
  variables	
  en	
  cada	
  modelo	
  (31).	
  	
  

2.1.3.1.	
   Sistema	
   multiclasificador	
   ensamblado	
   (SMCs)	
   basado	
   en	
   modelos	
  
QSAR.	
  

        No	
   existe	
   todavía	
   un	
   clasificador	
   por	
   excelencia;	
   para	
   un	
   problema	
  
determinado	
  es	
  difícil	
  seleccionar	
  cual	
  será	
  el	
  clasificador	
  que	
  logre	
  encontrar	
  una	
  
mejor	
   frontera	
   de	
   decisión	
   para	
   separar	
   las	
   clases.	
   Por	
   ello,	
   se	
   utilizó	
   un	
  
clasificador	
   ensamblado	
   o	
   multiclasificador,	
   a	
   partir	
   de	
   todos	
   los	
   modelos	
   QSAR	
  
considerados.	
  Este	
  sistema	
  tiene	
  una	
  tendencia	
  general	
  a	
  mejorar	
  los	
  resultados	
  de	
  
las	
   clasificaciones	
   combinando	
   adecuadamente	
   varios	
   clasificadores	
   (en	
   nuestro	
  
caso	
  son	
  los	
  modelos	
  individuales)	
  (32,	
  33).	
  	
  

        Una	
   de	
   las	
   condiciones	
   para	
   obtener	
   buenos	
   resultados	
   es	
   lograr	
   la	
  
diversidad	
  de	
  los	
  modelos	
  individuales,	
  y	
  para	
  “cuantificar”	
  las	
  correlaciones	
  entre	
  
ellos	
  fueron	
  seleccionadas	
  las	
  medidas	
  de	
  diversidad	
  de	
  desacuerdo	
  (D)	
  y	
  de	
  doble	
  
fallo	
  (DF)	
  (34).	
  El	
  desacuerdo	
  se	
  basó	
  en	
  aquellos	
  casos	
  que	
  fueron	
  clasificados	
  de	
  
manera	
   diferente	
   por	
   dos	
   modelos	
   individuales	
   (se	
   escoge	
   el	
   valor	
   máximo)	
   y	
   el	
  
doble	
  fallo	
  tiene	
  en	
  cuenta	
  aquellos	
  casos	
  en	
  que	
  ambos	
  	
  modelos	
  se	
  equivocan	
  en	
  
su	
   clasificación	
   (escogiéndose	
   el	
   mínimo	
   valor).	
   De	
   esta	
   forma	
   quedan	
  
seleccionados	
   los	
   modelos	
   con	
   mayor	
   diversidad	
   en	
   la	
   información	
   brindada	
   (34,	
  
35).	
  

        El	
   método	
   escogido	
   para	
   realizar	
   el	
   SMCs	
  se	
   denomina	
  no	
   entrenado	
  (voto	
  
no	
  	
  ponderado)	
  donde	
  se	
  combina,	
  en	
  una	
  matriz,	
  los	
  ?P	
  de	
  los	
  casos	
  por	
  todos	
  los	
  
modelos	
   analizados	
   (expresando	
   la	
   probabilidad	
   de	
   ser	
   activos	
   o	
   inactivos).	
  
Mediante	
   la	
   fusión	
   de	
   diferentes	
   funciones	
   matemáticas	
   (media,	
   mediana,	
   valor	
  

466	
  

	
  
   65   66   67   68   69   70   71   72   73   74   75