Thesis structure: The thesis contains annotations in Romanian and English language, contents, introduction, 4 chapters, conclusions, bibliography.
Study domain: Supervised machine learning and predictive analytics.
Scope: Data analysis and development of a machine learning model for a better understanding of the most influential features of employee turnover. Predicting employee turnover.
Objectives: Analyzing historical data and extracting relevant information from data. Apply machine learning algorithms to the given dataset in order to predict employee turnover. Determine the most influential factors that cause employee turnover. Deep analysis of at least two machine learning algorithms. Analyzing the obtained results and evaluate the models. Define a high-level retention strategy for employee turnover.
Theoretical value of the thesis: Data set description and definition. Data preparation process description. Describing what machine learning is and types of machine learning. Mathematical description of two classification models: logistic regression and random forest.
Practical value of the thesis: Data analysis and visualization in python (dedicated tools and frameworks). Data pre-processing in python and preparing the data for machine learning modeling. Developing the prediction models in python (logistic regression and random forest).
Structura tezei: Lucrarea conține adnotări în limbile română și engleză, cuprins, introducere, 4 capitole, concluzii, bibliografie.
Domeniul de studiu: Analiza predictivă a datelor şi învățare automată supravegheată
Scopul lucrării: Analiza datelor şi dezvoltarea unui model de “machine learning” pentru a înţelege factorii care infuenţiază asupra plecării angajaţilor din companie şi a prezice care sunt angajaţii cu o probabilitate mare de a părăsi compania.
Obiectivele lucrării: Analiza datelor istorice şi extragerea informaţiei relevante din date. Aplicarea modelelor statistice asupra datelor pentru a determina angajaţii cu un risc sporit de plecare din companie. Determinarea factorilor decisivi în plecarea angajaţilor. Studierea şi cercetarea a sel puţin două model statistice şi analiza rezultatelor acestora. Propunerea unei strategii pentru reţinerea angajaţilor în companie.
Valoarea teoretică a lucrării: Definirea datelor şi a procesului de pregătire a datelor pentru modelare. Descrierea procesului de “machine learning” şi a două modele bine cunoscute: logistic regression şi random forest. Descrierea matematică a modelelor statistice.
Valoarea aplicativă a lucrării: Analiza şi vizualizarea datelor prin intermediul tool-urilor şi framework-urilor dedicate în limbajul de programare python. Procesarea datelor în python şi pregătirea lor pentru modelare. Dezvoltarea modelelor de predicţie în python (logistic regression şi random forest).