La importancia de las bases de datos

Emanuel Villafán de la Torre* y Alan Josué Pérez Lira**

Artículo publicado en el Portal Comunicación Veracruzana el día 06 de julio 2021

Nos encontramos en la era de la información, pues todos los días se generan cantidades inmensas de datos ¿pero qué pasa con ellos? Lo más probable es que se almacenen en bases de datos para poder ser desmenuzados y estudiados a detalle. En este artículo presentamos algunas ideas respecto a la importancia de las bases de datos tanto en nuestra vida diaria como en el quehacer científico.

Palabras clave: bases de datos, información.

Todos los días alrededor del mundo se generan millones de datos. Incluso nosotros mismos somos responsables de producir muchos de ellos cuando hacemos uso de alguna aplicación de compras, al ver un capítulo de nuestra serie favorita en alguna plataforma de streaming, al escribir un tweet o al pedir un taxi por nuestro smartphone, pues en todos estos casos existen programas que registran cierta información. Todos estos datos son muy útiles, pues pueden ser analizados en conjunto para detectar patrones de consumo, de interacción social y de movilidad, por mencionar solo algunos ejemplos. Pero ¿te has puesto a pensar qué pasa con ellos? Lo más probable es que se almacenen en una base de datos.

Las bases de datos son sistemas de organización en el que se depositan datos provenientes de un mismo contexto y que pueden ser consultados, agrupados, filtrados, etc. para extraer información de ellos. Aunque una base de datos puede ser física (como una biblioteca) normalmente son digitales y por ende dependen de infraestructura de cómputo; esto significa que entre más grande sea la base de datos, mayores serán los recursos de hardware que se necesiten para mantenerla y procesarla.

Existen miles de bases de datos, algunas de ellas son públicas y pueden ser consultadas por cualquier persona a través del Internet, y otras tantas son privadas ya que pertenecen a las empresas o instituciones que las generan y mantienen.

En el ámbito científico, las bases de datos públicas son de gran importancia para poder llevar a cabo investigación, pues los datos generados por otras personas pueden ser utilizados para formular nuevas preguntas. Además, el tener acceso a los datos generados por un grupo de investigación, permite verificar a otros científicos la reproducibilidad de los análisis o experimentos llevados a cabo, lo cual da certeza al quehacer científico a través de un proceso conocido como revisión por pares.

Aunado a todo esto, las bases de datos científicas son extremadamente necesarias para mantener un orden, pues de acuerdo a algunas estimaciones realizadas por [1], tan solo el volumen de datos genómicos (datos provenientes de experimentos de secuenciación del ADN) que se estarán generando durante los primeros cinco años de esta década, rondarán el orden de un ZettaByte (ZB) cada año. Para entender la magnitud de esto consideremos que un ZB es la unidad de medida de almacenamiento que equivale a mil millones de TeraBytes. En términos más sencillos, si cada TeraByte en un ZettaByte fuera un kilómetro, se podrían realizar cerca de 1,300 viajes de ida y vuelta a la Luna [2]. Si esto todavía no nos sorprende, consideremos que actualmente el tamaño de todo el Internet se estima en 7.2 ZB [3]; es decir, la información genómica que se estará generando cada año equivaldría a una séptima parte de toda información que hoy en día se encuentra almacenada en Internet.

Teniendo en cuenta el volumen de generación de datos y su tendencia a la alza, sin las bases de datos públicas sería extremadamente difícil encontrar y utilizar datos para la investigación, lo cual haría muy complicado el desarrollo de la ciencia y la tecnología. Pensemos por ejemplo en la actual crisis global desatada por el virus SARS-Cov-2 que causa la enfermedad COVID-2019. Miles de centros alrededor del mundo están estudiando el virus y es gracias a estos esfuerzos que se han logrado caracterizar cerca de 800,000 muestras distintas del virus. Todos los datos de estas muestras se encuentran disponibles para el público en general en una  base de datos del Centro Nacional para Información Biotecnológica (NCBI por sus siglas en inglés) [4]. Gracias al análisis de estos datos ha sido posible distinguir el surgimiento de nuevas variantes y monitorear su prevalencia en distintos países. Pero imaginémonos que para hacer este tipo de estudios los investigadores tuvieran que recolectar los datos en cada uno de los centro de investigación que los generaron, sería prácticamente imposible realizar avances en poco tiempo, lo cual es un lujo que no nos podemos permitir sobre todo en medio de una contingencia sanitaria.

Así pues, queda claro que nos encontramos en la era de la información y que las bases de datos juegan un papel tal vez más importante del que nos imaginábamos, por lo que la próxima vez que des un “like” a una foto en internet, piensa que tal vez pudieras terminar siendo parte de una estadística en algún estudio llevado a cabo del otro lado del mundo.

 

Referencias 

 

 

Pies de figuras  

Slider. Cloud computing (https://www.flickr.com/photos/159124985@N05/37845654022), de https://stormotion.io/, 23 de octubre de 2017, licencia Creative Commons BY 2.0.

Fig 1. Tipos de datos (https://es.wikipedia.org/wiki/Archivo:Data_types_-_en.svg) por João Batista Neto, 7 de septiembre de 2015. licencia Creative Commons BY 3.0. 

Fig 2. Bases de datos de particulares (https://commons.wikimedia.org/wiki/File:Bases_de_datos_de_particulares.jpg) por CoRegistros, 22 de marzo de 2014, licencia Creative Commons BY-SA 4.0 

Fig 3. ¿Cuánto es un ZettaByte de almacenamiento? por Emanuel Villafán, sin licencia.

Fig 4. Portal público de la base de datos de “Virus” del NCBI (https://www.ncbi.nlm.nih.gov/labs/virus/vssi/#/sars-cov-2).

 

 * Red de Estudios Moleculares Avanzados, Instituto de Ecología A.C.

** Facultad de Ciencias, Universidad Nacional Autónoma de México