Page 7 - 83_01
P. 7
5. ALMACENAMIENTO Y ANÁLISIS DE DATOS Carmen Avendaño
MASIVOS (BIG DATA O MACRODATOS)
3. Baker M. 1,500 scientists lift the lid on reproducibility.
El término big data (macrodatos, datos masivos o datos Nature 2016; 533: 452-4.
a gran escala), hace referencia al almacenamiento de
grandes cantidades de datos y a los procedimientos usados 4. Freedman L, Cockburn IM, Simcoe TS. The Economics
para encontrar patrones repetitivos dentro de ellos. Estas of Reproducibility in Preclinical Research. PLoS
técnicas, que surgieron de la necesidad de confeccionar Biology 2015; 13: e1002165.
informes estadísticos y modelos predictivos, representan
una revolución en las tecnologías de la información y la 5. Kerr NL. HARKing: hypothesizing after the results are
comunicación, y están cambiando la forma de hacer known. Pers Soc Psychol Rev 1998; 2: 196-217.
negocios, la política, la educación, la sanidad, y la
innovación (15), constituyendo una oportunidad para la 6. Crabbe JC, Wahlsten D, Dudek BC. Genetics of mouse
investigación. Los científicos necesitan hoy día behavior: interactions with laboratory
complementar la ciencia con las búsquedas inteligentes de environment. Science 1999; 284: 1670-2.
datos, cuyo volumen crece constantemente, y adaptar sus
prácticas a esta nueva herramienta. Su utilización es 7. Simmons JP, Nelson LD, Simonshohn U. False-positive
también un reto, ya que estos datos han de procesarse psychology: undisclosed flexibility in data collection
inteligentemente (16). No puede perderse de vista la and analysis allows presenting anything as significant.
enorme diferencia que existe entre los big data científicos, Psychol Sci 2011; 22: 1359-66.
que se extraen de muchos trabajos experimentales, y los
big data extraidos de conductas humanas, ya que estos 8. a) Ioannidis JPA. Why most published research findings
últimos son muchas veces contradictorios. are false. PLoS Med 2005; 2, e124. b) Fanelli D.
“Positive” results increase down the Hierarchy of the
Entre las muchísimas herramientas para analizar los big Sciences. PloS ONE 2010; 5: e10068. c) Button KS,
data, se encuentra su agrupación (clustering), en la que Ioannidis JPA, Mokrysz C, et al. Power failure: why
grandes grupos de datos dan lugar a grupos más pequeños small sample size undermines the reliability of
en función de su semejanza, desconocida antes de realizar neuroscience. Nat Rev Neurosci 2013; 14: 365-76.
este tipo de análisis. Esta técnica, referida a individuos, se
está aplicando en el campo de la salud. Por ejemplo, 9. a) Ioannidis JP, Haidich AB, Lau J. Any casualties in
utilizando los datos de búsquedas que contenían los the clash of randomised and observational evidence?
términos Influenza-Like Illness Symptoms, agregados BMJ 2001; 322: 879-80. b) Lawlor DA, Smith GD,
según ubicación y fecha, Google Flu Trends, predijo hacia Kundu D, et al. Those confounded vitamins: What can
mediados de 2009 una pandemia de gripe A, con dos we learn from the differences between observational
semanas de antelación a los sistemas de detección versus randomised trial evidence? The Lancet 2004;
tradicionales. El análisis de datos masivos ha comenzado 363: 1724-7. c) Vandenbroucke JP. When are
ya a aplicarse en el tratamiento del cáncer y en el observational studies as credible as randomised trials?
diagnóstico de enfermedades, campos en los que la The Lancet 2004; 363: 1728-31.
inteligencia artificial es capaz de realizar análisis con una
gran precisión (17). 10. a) Michiels S, Koscielny S, Hill C. Prediction of cancer
outcome with microarrays: A multiple random
6. CONCLUSIÓN validation strategy. The Lancet 2005; 365: 488-92. b)
Ioannidis JPA, Ntzani EE, Trikalinos TA,
La metaciencia está demostrando que es posible hacer Contopoulos-Ioannidis DG. Replication validity of
una investigación más exigente y reproducible (18), y genetic association studies. Nat Genet 2001; 29: 306-
descubrir que lo que considerábamos como verdadero 9.
puede que no lo sea. En palabras de Regina Nuzzo:
Humans are remarkably good at self-deception, but 11. Papanikolaou GN, Baltogianni MS, Contopoulos-
growing concern about reproducibility is driving many Ioannidis DG, et al. Reporting of conflicts of interest
researchers to seek ways to fight their own worst instincts in guidelines of preventive and therapeutic
(20). Fomentar la autocorrección del propio proceso interventions. BMC Med Res Methodol 2001; DOI:
científico puede ser de gran utilidad en medicina, tanto en 10.1186/1471-2288-1-3.
lo que se refiere a métodos diagnósticos (19) como a
tratamientos. 12. a) Collins FS, Tabak LA. Policy: NIH plans to enhance
reproducibility. Nature 2014; 505: 612-3. b)
7. BIBLIOGRAFÍA Motulsky HJ. Common misconceptions about data
analysis and statistics. J Pharmacol Exp Ther 2014;
1. Ioannidis JPA, Allison DB, Ball CA, et al. Repeatability 351: 200-5.
of published microarray gene expression analyses.
Nature Genet 2009; 41: 149-55. 13. Munafò MR, Nosek BA, Bishop DVM, Button KS, et
al. A manifesto for reproducible science. Nature
2. Begley CG, Ellis LM. Drug development: Raise Human Behaviour 2017, doi:10.1038/s41562-016-
standards for preclinical cancer research. Nature 2012; 0021. 14. Miller MJ, van den Heuvel ER, Roesti D.
483: 531-3. The role of statistical analysis in validating rapid
microbiological methods. European Pharmaceutical
8 Review RMMs Suplement, 2016; issue 6.
15. Mayer-Schönberger V, Cukier K. Big Data: A
Revolution That Will Transform How We Live,
@Real Academia Nacional de Farmacia. Spain