Page 35 - 79_04
P. 35
Óscar
Miguel
Rivera
Borroto
&
col.
métodos
más
simples
para
el
cribado
virtual
por
el
cual
una
molécula
es
punteada
con
su
similitud
más
alta
a
una
molécula
activa
de
la
multi
consulta.
Formalmente,
si
una
consulta
múltiple
de
activos
es
denotada
por
??!, ??!, … , ??! ,
el
puntaje
asignado
a
una
molécula
del
conjunto
de
datos
??!
viene
dado
por:
??! ??! = ??????|!! ?? ??!, ??!
(7)
Donde,
?? ??!, ??!
es
la
similitud
de
la
molécula
del
conjunto
de
datos
??!
a
la
referencia
??!
de
la
multi
consulta,
S
es
la
función
de
similitud
y
algunas
de
ellos
han
demostrado
ser
eficaces
en
la
operación.
Sin
embargo,
en
un
estudio
abarcador
Chen
et
al.
(2010)
mostraron
recientemente
que
la
regla
“suma
de
rangos
inversos”
se
comporta
superiormente
a
la
regla
MAX--SIM
en
los
dominios
de
datos
examinados,
esto
es:
??! ??! = ! 1 ?? ?? ??!, ??!
!!!
(8)
Donde,
r
es
el
“ranking”
asignado
al
puntaje
de
similitud
?? ??!, ??! ,
relativo
a
los
puntajes
de
las
moléculas
del
conjunto
con
respecto
a
una
consulta
especifica.
Esta
regla
de
fusión
procede
del
área
de
Recuperación
de
Información
y
su
efectividad
se
debe
a
la
cercana
relación
que
existe
entre
el
rango
reciproco
de
la
estructura
de
la
base
de
datos
con
respecto
a
una
búsqueda
de
similitud
simple
y
la
probabilidad
de
que
esta
estructura
comparta
la
misma
actividad
que
la
estructura
de
referencia
(119).
Como
alternativa
a
las
técnicas
de
fusión
de
datos
anteriores,
algunos
investigadores
han
trabajado
la
ponderación
de
rasgos
binarios
orientados
por
clases
de
actividad
sobre
la
base
de
compuestos
de
referencia
múltiples
y
aplicados
para
enfatizar
algunas
posiciones
de
bits
específicas
durante
la
búsqueda
de
similitud.
Algunas
técnicas
de
ponderación
de
rasgos
se
basan
en
el
análisis
de
frecuencia
de
bits
en
huellas
dactilares
o
“fingerprints”
de
molecular
activas
y/o
inactivas,
perfilando,
escalando
y
promediando
los
fingerprints
para
derivar
en
el
cálculo
de
los
fingerprints
de
consenso.
Un
grupo
de
técnicas
más
reciente
se
basan
en
el
acallado
de
bits
“bit
silencing”
y
difiere
de
los
enfoques
estadísticos
en
que
monitorean
directamente
el
cambio
en
la
calidad
de
la
recuperación
cuando
se
omiten
bits
individuales
en
moléculas
de
referencia
activas
(120).
En
esencia,
estas
técnicas
también
pudieran
considerarse
como
una
cuarta
estrategia
de
fusión
de
datos,
más
específicamente
fusión
de
representación,
y,
actualmente
constituyen
un
área
de
investigación
activa
por
la
facilidad
con
que
pueden
calcularse,
manipularse
y
almacenarse
los
descriptores
binarios.
Por
otra
parte,
estas
técnicas
también
pueden
ser
extendidas
al
caso
no
binario.
552