
Qué fácil es decir "Quiero ser un científico de datos", pero… ¿por dónde empiezo? ¿Cuánto tiempo necesitaré para que las empresas me quieran en su equipo? Normalmente el camino suele ser más o menos largo, pero hay temas y factores clave que aparecerán siempre. Pero básicamente se podría resumir en obtener los conocimientos y experiencia necesarios para alcanzar el objetivo final de extraer conclusiones fiables y reproducibles de un conjunto de datos posiblemente diseminado.
Retomemos lo que en realidad es un científico de datos. Esta persona tan solicitada hoy en día en las empresas es quien se dedica a analizar e interpretar grandes bases de datos. El Data Science debe saber interpretar gráficos que aporten información y saberlo explicar.
Para empezar por un proceso más detenido y seguro, es muy recomendable tomar cursos básicos de programación y lógica, eso facilita el entendimiento de como funciona un lenguaje de programación o con una herramienta de programación modular. Luego de esto ver que necesidad tengo o que es lo que más se requiere en el mercado actual, por ejemplo el conocimiento en la herramienta Python es muy demandado, es decir que vamos a encontrar bastante documentación y solución a nuestras dudas en foros, blogs e incluso tutoriales en video.
No enfrentarse a problemas complejos de una vez, siempre es bueno empezar por algo sencillo e ir añadiendo complejidad. Finalmente echa un vistazo de los cheatsheets, los cuales son un condensado de la funciones que son más útiles y frecuentes, así tienes una fuente de información sencilla de consultar
Factores Clave durante el proceso profesional
Tener una buena base de álgebra, cálculo, probabilidad y estadística
Python o R como lenguaje de programación y sus correspondientes librerías para Data Science.
Conocimientos de SQL para hacer consultas sobre bases de datos
Obtención de datos de distintas fuentes (consulta de APIs, web scrapping,…).
Limpieza y pre-procesado de datos y la función de ingeniería
Machine Learning (algoritmos, modelado, evaluación, optimización, etc).
Aprendizaje profundo, aprendizaje por refuerzo, procesamiento del lenguaje natural, visión por computadora, etc...
Creación de visualizaciones para explicar los resultados.
Podríamos seguir, pero no hay un profesional es esta área más completo que un científico de datos. Sus habilidades básicas deben ser las matemáticas, el análisis de datos, lenguaje de programación y conocimiento de ciertas herramientas, poseer inteligencia de negocios. Aquí te lo explicaremos más a detalle:
1. Matemáticas
Piensa que un científico de datos debe conocer los fundamentos, no ser un matemático. Como en la mayoría de profesiones, hay que diferenciar dos casos, lo que necesitas saber para poder trabajar como Data Scientist, que puede que tengas que utilizar de forma puntual y apoyándote en información de internet y lo que realmente vas a necesitar aplicar en tu día a día con criterio y fluidez.
2. Análisis de datos
Muchos de los softwares y herramientas utilizados en Big Data y Machine Learning se encargan de hacer la mayor parte de cálculos matemáticos por ti, sin embargo, esto no podrá hacerlo nadie. Esta es la verdadera habilidad que debe tener un científico de datos y por la que será más valioso.
El 85% del trabajo de un Data Scientist se basa en la preparación de datos, encontrar los patrones, entenderlos, dar explicación e interpretar la salida de los modelos, todo en un contexto de un determinado negocio, adicionalmente la correcta presentación de los datos. Es la habilidad mas importante y por ello deberás tener habilidades muy sólidas para el análisis de datos. Exploración, limpieza, construcción de modelos y presentación de resultados.
3. Lenguajes de programación y herramientas
En realidad, como cualquier iniciado sabe, en programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales. Lo que sí está claro es que hay algunos lenguajes más populares y más solicitados que otros y que estos también van cambiando con el tiempo y según avanza esta ciencia de datos.
Un estudio de Kaggle de 2018 reveló que Python, SQL y R son los lenguajes de programación más populares. El de más aceptación, con diferencia, fue Python (el 83% de los encuestados lo usaban). Además, 3 de cada 4 profesionales de datos recomendaron que los aspirantes a científicos de datos aprendan Python primero.
Pero le preguntamos a nuestro expertos dentro del equipo y con base en su experiencia y trayecto, te recomendamos los siguientes:
Python: El 83% por ciento de los dateros usan Python de forma habitual. Tiene una sintaxis muy buena y moderna pero aún queda mucho por trabajo por hacer desarrollando su ecosistema. Python cada vez es más competitivo y iniciativas como SciPy, están poniéndole las cosas muy difíciles a R. Es el lenguaje de los que se acercan desde un background informático, es el mas versátil y se lleva muy bien con otros lenguajes.
R: En torno a un 36% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra. Se puede percibir como una herramienta más fácil de aprender que Python, el R es un tanto más viable para personas que no vienen de un ambiente informático.
Un incombustible
Excel: No es un lenguaje y no suele gustar a aquellos que trabajan con datos a nivel profesional. O eso dicen cuando se les pregunta porque las encuestas dicen lo contrario: Un 59% por ciento de los encuestados usan habitualmente Excel. Así que, en fin, la aplicación de hojas de cálculo de Office sigue dando mucha guerra.
Tableau, ayuda a la visualización, RapidMiner o de Weka al desarrollo de modelos de ML. Pero todas son herramientas que según sea su fuerte se pueden usar y de alguna forma, ayudar al entendimiento de los datos.
Recomendación de nuestros expertos
Si están comenzando, es imprescindible iniciar con temas que ellos entiendan, en donde sean expertos, por qué?... porque así va cobrando sentido todo el conocimiento que van adquiriendo y se le va dando un valor, luego es más un tema creativo y de experimentación con criterio ya que van tener distintas herramientas para trabajar y poder extrapolar este conocimiento a otros campos de la ciencia o negocio.
SIEMPRE, tener muy claro hacia donde se quiere llegar, ya que como hay tantas herramientas lo proyectos se pueden terminar desviando, me decía una profesora que solo el 30% de proyectos de ciencia de datos se terminan concretando, porque no se tenía un objetivo claro y por la cantidad de opciones en cuanto a herramientas los proyectos se terminaban diluyendo o no generaba valor.
Antes de tomar un lenguaje de programación o una herramienta de programación modular para el desarrollo de modelos y análisis de datos, se debe entender las metodologías que se usan para los análisis, si bien todas tienen un parecido, lo importante es entender que importancia tienen esos pasos para los proyectos. Cuando se tenga eso claro, ahí podemos hacer uso de las herramientas disponibles, necesarias o que se nos facilite el aprendizaje.
TODO ESE PROCESO SE DEBE DISFRUTAR!!! Es muy importante, lo digo por experiencia y que estoy en ese camino a ser un Científico de Datos. (Sebastián Ruiz - Científico de Datos en Analytic Board)
4. Inteligencia de negocio
Como vemos, un científico de datos debe tener un compendio de habilidades pertenecientes a mundos diferentes, y se le añade otro campo más: la visión de negocio. Debe tener la capacidad y los conocimientos necesarios para interpretar y detectar tendencias en su área y traducir estos descubrimientos en acciones que impacten sobre el negocio, crear nuevas oportunidades o comunicar sus hallazgos con el fin de promover cambios dentro de la empresa, el producto o los servicios. Porque no sirve de nada aplicar algoritmos complejos de Machine Learning a objetivos que no tienen valor para la empresa, bien nos lo decía nuestr experto en la Ciencia de los Datos.
Es ahí donde el científico de datos debe utilizar el conocimiento para impactar en los resultados y jugar un papel importante a la hora de decidir la dirección que puede adoptar una empresa en materia de innovación.
Comentários