INFORMÁTICA Y SISTEMAS
UNIVERSIDAD MAYOR DE SAN SIMÓN
UMSS Informática y Sistemas

IMPLEMENTACIÓN DE UNA SOLUCIÓN DE DATA SCIENCE PARA PREDECIR LA RELACIÓN DE EMPRESAS DE TELECOMUNICACIONES CON SUS CLIENTES - Perfil

Código: 2226
Autor(es): Huanca Sevilla Danny Luis
Area(s): Data Science
Data Mining, Data Science
Gestión de Inicio: 2/2017
Modalidad: Proyecto de Grado
Carrera: Licenciatura en Ingenieria de Sistemas
Tutor: Lic. Boris Marcelo Calancha Navia
Formulario: Descargar Realizá un click para empezar la descarga del Formulario de esta tesis.

Objetivo General:

Implementar una solución de Data Science para predecir la relación de empresas de telecomunicaciones con sus clientes

Objetivos específicos:

  • Definir los requerimientos de negocio por medio de un análisis de requerimientos
  • Diseñar la arquitectura técnica con los insumos necesarios siguiendo los estándares del diseño de ETLs
  • Preparar los datos requeridos para una tabla minable siguiendo los criterios generales de preparación de datos
  • Generar los modelos de: churn, apetencia y up – selling, considerando los criterios del modelado en minería de datos y machine learning
  • Escoger los mejores modelos para cada caso, sujetos a los criterios de evaluación de modelos
  • Disponer el consumo de los modelos en 3 servicios web (uno por cada modelo) sujetos a las especificaciones del protocolo a usar

Descripción :

El presente proyecto consiste en predecir la relación de empresas de telecomunicaciones con sus clientes y para ello se hará uso de tecnologías de minería de datos y data science usando como caso de estudio los datos de empresa Orange S.A disponibles libremente en internet. Para el desarrollo del proyecto se usará la metodología CRISP – DM propuesta por SPSS-IBM. Se realizará el diseño de la arquitectura del proceso de extracción de conocimiento. La construcción de la tabla minable se hará con la herramienta de ETL: Pentaho. Los datos se subirán a una base de datos en los que se procederá a procesarlos. Para la parte de preparación de datos, dado que se tienen 15000 columnas; se evaluará el uso del lenguaje de programación Python o R en un ambiente de desarrollo denominado Anaconda (en el que se encuentran todas las librerías necesarias para este análisis). Esta tarea también puede ser realizada con la herramienta Rapidminer. Se aplicarán técnicas de reducción de dimensiones para disminuir la cantidad de variables Para los modelos a realizar, churn, apetencia y up selling se propondrán algoritmos de aprendizaje supervisado predictivo. Los 3 modelos serán compartidos a través de servicios web que podrán ser consumidos por aplicaciones.