Page 37 - 79_04
P. 37

Óscar	
  Miguel	
  Rivera	
  Borroto	
  &	
  col.	
  

	
  
representa	
  la	
  razón	
  de	
  falsos	
  positivos	
  (fpr)	
  e	
  Y	
  representa	
  la	
  razón	
  de	
  verdaderos	
  
positivos	
   (tpr)]	
   a	
   través	
   de	
   una	
   transformación	
   de	
   magnificación	
   suave	
   ya	
   sea	
  
exponencial,	
   de	
   potencia	
   o	
   logarítmica.	
   La	
   lógica	
   de	
   su	
   trabajo	
   se	
   basa	
   en	
   el	
  
“comportamiento	
   del	
   usuario”	
   que	
   se	
   observa	
   en	
   la	
   recuperación	
   de	
   páginas	
   web	
  
donde	
  se	
  conoce,	
  como	
  promedio,	
  la	
  frecuencia	
  con	
  que	
  	
  el	
  primero,	
  segundo,	
  …,	
  n-­-
ésimo	
  registro	
  son	
  pinchados	
  (“cliqueados”);	
  la	
  curva	
  decreciente	
  correspondiente	
  
de	
   cuán	
   relevante	
   es	
   cada	
   rango	
   provee	
   información	
   valiosa	
   para	
   los	
   niveles	
   	
   de	
  
intervalo	
  y	
  magnificación	
  requeridos;	
  a	
  partir	
  de	
  aquí	
  es	
  razonable	
  requerir	
  que	
  el	
  
factor	
  de	
  magnificación	
  local	
  sea	
  proporcional	
  a	
  la	
  relevancia	
  correspondiente.	
  Por	
  
la	
   analogía	
   de	
   estos	
   sistemas	
   con	
   los	
   sistemas	
   de	
   recuperación	
   en	
   el	
  
descubrimiento	
   de	
   fármacos,	
   se	
   propone	
   se	
   emplee	
   una	
   relevancia	
  
exponencialmente	
   decreciente	
   del	
   “ranqueo”	
   final.	
   Finalmente,	
   a	
   través	
   de	
  
resultados	
   gráficos	
   y	
   empleando	
   pruebas	
   estadísticas	
   robustas	
   los	
   autores	
  
concluyen	
  que	
  las	
  variantes	
  CROC	
  son	
  más	
  potentes	
  que	
  los	
  métodos	
  de	
  umbrales	
  
de	
  corte	
  fijo,	
  que	
  las	
  variantes	
  Curva	
  de	
  Acumulación	
  Concentrada	
  (CAC,	
  del	
  inglés	
  
Concentrated	
  Acumulation	
  Curve),	
  pROC	
  y	
  ROC	
  (126).	
  

        La	
   variante	
   más	
   potente	
   de	
   la	
   curva	
   CROC	
   se	
   obtiene	
   aplicando	
   una	
  
transformación	
  de	
  magnificación	
  exponencial	
  del	
  eje	
  X	
  (fpr)	
  de	
  la	
  curva	
  ROC	
  dada	
  
por:	
  	
  

         h ??    =  !!! !!"
                    !!! !!

(9)

        Donde,	
  a	
  es	
  el	
  factor	
  de	
  magnificación,	
  que	
  para	
  caso	
  recomendado	
  toma	
  el	
  
valor	
   a	
   =	
   20	
   que	
   corresponde	
   aproximadamente	
   a	
   un	
   8%	
   de	
   enriquecimiento	
  
temprano	
  (123).	
  

        Una	
  vez	
  establecida	
  la	
  función	
  de	
  magnificación	
  h ?? ,	
  el	
  área	
  bajo	
  la	
  curva	
  
CROC	
   puede	
   calcularse	
   fácilmente	
   como	
   el	
   promedio	
   de	
   los	
   valores	
   de	
   fpr	
  
transformados	
   correspondientes	
   a	
   las	
   posiciones	
   de	
   las	
   instancias	
   positivas	
   en	
   la	
  
lista	
  de	
  recuperación	
  como:	
  	
  

         ?????? ????????   =  !    !!!                 !"#!
                              !!!

                                     !

(10)

        Donde,	
  ??????!	
  es	
  la	
  razón	
  de	
  falsos	
  positivos	
  al	
  nivel	
  (rango)	
  de	
  cada	
  instancia	
  
positiva	
  i	
  del	
  total	
  n.	
  

        Por	
   último,	
   valores	
   del	
   área	
   bajo	
   CROC	
   se	
   pueden	
   comparar	
   con	
   el	
   valor	
  
correspondiente	
  al	
  clasificador	
  aleatorio	
  a	
  través	
  de	
  la	
  formula:	
  

         ??????  ????????  !"#!$  =  !                 -    ! !!
                                     !                    !!! !!

(11)

554	
  

	
  
   32   33   34   35   36   37   38   39   40   41   42