https://unsplash.com/photos/k_T9Zj3SE8k

Plataformas en la nube: una valiosa herramienta para la Ciencia de Datos

Yorleny Araya
Cientificas de Datos Costa Rica
4 min readJun 10, 2021

--

Desde hace algunos años, varias empresas líderes en el mercado de tecnología han desarrollado servicios orientados a ofrecer alternativas a los cuartos de servidores privados que tradicionalmente se han mantenido en las empresas. Estos servicios son los que conocemos como “La Nube”.

¿Qué es “La Nube”?

En resumen, los servicios en la nube son plataformas mediante las que las personas pueden estructurar sus sistemas y aplicaciones de negocio, pero sin tener que preocuparse por la infraestructura física en donde se almacenan. Únicamente deben mantener las computadoras que necesiten para acceder a los sistemas y acceso a internet.

Estas plataformas utilizan la virtualización de computadores para brindar a sus usuarios los servicios que necesitan de forma personalizada. Es decir, cada persona puede “armar” su computadora o servidor virtual, ajustado a sus necesidades en cuanto a almacenamiento, memoria, disco y demás especificaciones, sin tener que preocuparse por adquirir individualmente cada parte de hardware.

Además, las plataformas ofrecen también una serie de servicios especializados que les permiten a las personas armar ecosistemas cada vez más complejos, utilizando solo aquellos que se adaptan a las necesidades particulares de cada usuario. Cada uno de estos servicios cumple funciones específicas y están diseñados para integrarse con los demás elementos del ecosistema que el usuario escoge para su solución de negocio.

Adicionalmente, los servicios en la nube están estructurados de manera que puedan ofrecer alta escalabilidad, permitiendo incrementar o disminuir la capacidad del sistema para adaptarse a fluctuaciones de tráfico; alta tolerancia a fallos que garantiza la continuidad de uso, la posibilidad de construir sistemas distribuidos con gran facilidad, y garantizan la seguridad e integridad de la información almacenada.

La manera como las plataformas han sido estructuradas permiten que los costos de operación en los que las personas usuarias deben incurrir se reduzcan considerablemente, ya que las empresas proveedoras desarrollaron economías de escala al ofrecer de forma sistemática y extensa los servicios que antes debían adquirirse individualmente.

También, usualmente el cobro se realiza con base en el uso, por lo que una empresa que antes debía mantener sus servidores físicos funcionando 24/7, con los consecuentes costos operativos y de personal que esto significa, utilizando las plataformas en la nube puede encender los “equipos” únicamente durante horario de oficina, si no necesita que estén funcionando permanentemente.

Las plataformas

Las plataformas en la nube más populares en este momento, aunque no las únicas, son AWS, Azure y Google Cloud, pertenecientes a Amazon, Microsoft y Google, respectivamente. Todas comparten características generales como:

-Mantienen infraestructura alrededor del mundo, con grupos de servidores en localidades estratégicas, que les permiten brindar servicios con baja latencia de acuerdo con las necesidades geográficas de cada cliente.

-Ofrecen servicios de pago por uso, donde se paga únicamente por el tiempo en que el servicio seleccionado se encuentra en ejecución.

-Extienden bonos por la suscripción inicial. Tanto Google Cloud como Azure ofrecen un monto de crédito que se descuenta conforme se utiliza, mientras que AWS ofrece una capa de acceso gratuito durante un tiempo determinado.

-Tienen grupos de servicios especializados en diferentes áreas: bases de datos, aplicaciones, data, web, desarrollo, entre muchos otros.

-Mantienen amplia documentación sobre el funcionamiento de la plataforma, todos los servicios existentes, incluyendo posibles casos de uso y aspectos técnicos.

-Brindan la posibilidad de certificarse en el uso de la plataforma y los servicios ofrecidos, con certificaciones escalonadas de acuerdo con el grado de conocimiento y la especialización de cada persona.

Plataformas en la Nube y Ciencia de Datos

Todas las plataformas mencionadas ofrecen una serie de servicios orientados a estructurar soluciones para la Ciencia de Datos en todas sus etapas: construcción de bases de datos, construcción de data pipelines, almacenes y lagos de datos, procesamiento de Big Data, análisis automatizado, Machine Learning, entre otros.

Las diferentes opciones permiten adaptar la solución a las necesidades de cada organización, ya que se pueden seleccionar solamente aquellos servicios que se necesiten, optimizando costos a la vez que cuentan con ambientes de trabajo completos.

De esta forma, las organizaciones pueden tener sistemas complejos para el análisis de sus datos, con alta disponibilidad, amplia capacidad de procesamiento de datos, suficiente espacio de almacenamiento, pero también altamente personalizados a las necesidades particulares de la organización y del tipo de datos que manejan.

No todos los servicios de las plataformas en la nube son propios de cada una. Aunque mantienen sistemas propios que resuelven aspectos particulares del proceso, todas integran aquellas herramientas que ya se utilizan en el mercado y ofrecen de forma estructurada para incorporarlas en cada ecosistema.

Es decir, una empresa que utilice lenguajes como R y Python, herramientas como Power BI, Hadoop, Spark, así como las bases de datos más utilizadas en el mercado, tanto relacionales como no relacionales, puede trasladar su infraestructura a la nube y ampliar su capacidad de procesamiento, sin tener que cambiar totalmente el ecosistema que utilizan.

Información sobre las plataformas

Cada vez es más común que las empresas y organizaciones utilicen las plataformas en la nube para manejar su información, por lo que es importante aprender como funcionan, especialmente en un mercado laboral competitivo donde cada vez son más las empresas que esperan que las personas profesionales en tecnología, y especialmente en Ciencia de Datos, conozcan al menos una de ellas.

Si quieren comenzar a explorar el mundo de las plataformas en la nube, o quieren aprender más sobre su funcionamiento, les dejamos información sobre las tres plataformas que mencionamos:

-Sobre AWS pueden encontrar información general acá, información sobre sus soluciones de Ciencia de Datos acá, e información sobre training y certificaciones acá.

-Sobre Google Cloud pueden encontrar información general acá, información sobre sus soluciones de Ciencia de Datos acá, e información sobre training y certificaciones acá.

-Sobre Azure pueden encontrar información general acá, información sobre sus soluciones de Ciencia de Datos acá, e información sobre training y certificaciones acá.

--

--