Page 31 - 79_04
P. 31
Óscar
Miguel
Rivera
Borroto
&
col.
Cuando
los
valores
de
atributo
se
limitan
a
0
y
1,
las
expresiones
utilizadas
por
varias
similitudes
y
medidas
de
distancia
pueden
a
menudo
ser
simplificadas
considerablemente.
Si
los
objetos
A
y
B
que
se
caracterizan
por
vectores
X
e
Y
que
contienen
n
valores
binarios
(tales
como
huellas
digitales)
se
pueden
definir
las
cantidades
a,
b,
c,
d
o
elementos
de
la
matriz
de
confusión
como:
?? = ! ??! ,
es
el
número
de
bits
activos
en
A
!!!
(1)
?? = ! ??! ,
es
el
número
de
bits
activos
en
B
!!!
(2)
?? = ! ??! ??! ,
es
el
número
de
bits
activos
en
A
y
B
!!!
(3)
?? = ! 1 - ??! - ??! + ??!??! ,
es
el
número
de
bits
inactivos
en
A
y
B
!!!
(4)
Por
tanto,
?? = ?? + ?? - ?? + ??
(5)
Estas
cantidades
anteriores
también
se
pueden
expresar
en
notación
de
teoría
de
conjuntos
dando
lugar
a
otras
formulaciones
basadas
en
este
tipo
de
representación
(101).
Como
ejemplo
ilustrativo
tenemos
el
coeficiente
de
Tanimoto
para
el
caso
binario
dado
por:
??!" = ?? [?? + ?? - ??]
(6)
Este
coeficiente
aplicado
a
las
huellas
dactilares
2D
constituye
actualmente
la
medida
de
elección
de
los
sistemas
de
software
comerciales
para
la
gestión
de
la
información
química.
También
forma
parte
de
sistemas
de
acceso
público
importantes
como
el
PubChem
(50).
En
un
artículo
revisión
reciente
Willet
(2006)
resume
los
resultados
de
los
estudios
de
comparación
y
combinación
de
coeficientes
de
similitud
usando
huellas
dactilares
en
conjuntos
de
datos
apropiados.
Estos
resultados
muestran
que
algunos
coeficientes
se
comportan
monotónicamente
entre
sí,
lo
que
significa
que
producen
clasificaciones
u
ordenamientos
idénticos
o
muy
similares
de
los
compuestos
de
la
base
de
datos
frente
a
una
estructura
de
referencia
determinada,
a
pesar
de
que
los
valores
del
coeficiente
real
son
diferentes.
También
se
ha
mostrado
que
algunos
coeficientes
tienen
una
marcada
preferencia
a
funcionar
bien
en
la
búsqueda
de
moléculas
activas
de
un
tamaño
determinado
dado
aproximadamente
por
el
número
de
bits
activos
en
el
vector
de
representación;
por
ejemplo,
el
coeficiente
de
Russel--Rao
“muestra
preferencia”
por
moléculas
548