Page 34 - 79_04
P. 34
Perspectiva
general
sobre
el
proceso
de
desarrollo
de
fármacos…
en
un
pequeño
vector
??,
de
tamaño
n
siendo
n
potencia
de
2
(esto
es,
si
??
tiene
tamaño
?? = 2!
entonces
el
tamaño
de
?? ???? ?? = ??).
El
vector
??
se
obtiene
aplicando
el
operador
XOR
(eXclusive
OR,
del
inglés)
al
vector
??.
Esta
información
adicional
puede
ser
vista
como
una
guía
que
precede
al
vector
??,
la
cual
puede
ser
usada
para
derivar
los
límites
útiles
en
las
medidas
de
similitud
lo
cual
permite
explorar
menos
del
50%
de
la
base
de
datos
y
acelera
la
búsqueda
significativamente
(113).
Más
recientemente,
Cao
et
al.
(2010)
han
reportado
un
algoritmo
de
búsqueda
y
agrupamiento
acelerado
basado
en
técnicas
de
empotramiento
e
indexado
multidimensional
que
mejora
en
20--400
veces
a
los
métodos
secuenciales
en
cuanto
al
tiempo
de
búsqueda
de
los
100
primeros
vecinos
más
cercanos
(el
algoritmo
de
Baldi
et
al.
(2008)
los
mejora
en
5.5
veces)
en
conjuntos
de
datos
de
260
000--19
millones
de
compuestos,
mientras
que
mantiene
exactitudes
comparables.
Además,
este
algoritmo
es
aplicable
a
un
amplio
espectro
de
medidas
de
similitud
y
puede
ser
escalable
a
conjuntos
de
datos
de
hasta
cientos
de
millones
de
objetos
químicos
(114).
3.4.
Fusión
de
datos
La
fusión
de
datos
se
utilizó
por
primera
vez
en
la
búsqueda
de
similitud
a
finales
de
los
años
noventa
(115,116).
Básicamente,
existen
tres
técnicas
de
fusión
de
datos
y
una
de
estas
es
la
fusión
de
similitud,
que
implica
la
búsqueda
con
una
estructura
de
referencia
y
varias
medidas
de
similitud.
Otra
variante
es
la
fusión
de
grupo,
que
consiste
en
buscar
múltiples
estructuras
de
referencia
con
una
sola
medida
de
similitud
y
se
ha
mostrado
que
es
más
eficaz
que
la
fusión
de
similitud.
El
tercer
enfoque
es
la
turbo
similitud,
en
analogía
a
los
motores
turbos
que
reutilizan
los
gases
de
escape
y
le
imprimen
una
potencia
mayor
al
vehículo;
esta
técnica
utiliza
una
estructura
de
referencia
y
una
medida
de
similitud,
sin
embargo,
es
más
efectiva
que
la
búsqueda
simple
porque
utiliza
los
primeros
vecinos
más
cercanos
recuperados
como
estructuras
de
referencias,
ya
que
estos
es
probable
que
también
sean
bioactivos
y
al
mismo
tiempo
introducen
otros
rasgos
estructurales
que
aumentan
el
éxito
de
la
búsqueda
al
encontrar
otros
quimiotipos
en
el
espacio
químico
(48).
Actualmente,
las
nuevas
técnicas
de
búsqueda
de
similitud
son
validadas
usando
la
técnica
fusión
de
datos
embebida
en
algún
mecanismo
de
validación
cruzada.
Para
ello,
una
vez
obtenidas
las
listas
de
recuperación
como
producto
de
aplicar
las
multi
consultas,
es
necesario
combinar
dicha
información
para
derivar
un
puntaje
fusionado
y
útil
para
cada
molécula
del
repositorio
que
permita
el
ordenamiento
final
del
conjunto
de
datos.
En
este
sentido
Hert
et
al.
(2004)
introdujeron
la
regla
de
fusión
MAX--SIM
(máxima
similitud)
que
por
su
probada
alta
efectividad
se
ha
usado
durante
varios
años
como
el
multi
clasificador
de
facto
para
los
estudios
quimioinformáticos
por
su
eficacia
y
simplicidad
matemática
y
computacional
en
el
cribado
de
conjunto
de
datos
farmacológicos
(117,
118).
Básicamente,
el
algoritmo
MAX--SIM
es
uno
de
los
551