IRTUM – Institutional Repository of the Technical University of Moldova

Managementul datelor prin aplicarea algoritmilor de învățare automată

Show simple item record

dc.contributor.advisor DUCA, Ludmila
dc.contributor.author ROTARU, Vasile
dc.date.accessioned 2024-02-28T13:49:43Z
dc.date.available 2024-02-28T13:49:43Z
dc.date.issued 2024
dc.identifier.citation ROTARU, Vasile. Managementul datelor prin aplicarea algoritmilor de învățare automată: tz. de master: Programul de studiu: Tehnologia Informației. Cond. şt. DUCA Ludmila, 2024. en_US
dc.identifier.uri http://repository.utm.md/handle/5014/26589
dc.description Fişierul ataşat conţine: Rezumat, Abstract, Cuprins, Introducere, Bibliografie. en_US
dc.description.abstract Această teză explorează intersecția dintre date masive, data mining și învățarea automată prin prisma tehnologiilor bazate pe Python, în special Pandas, scikit-learn și Langchain. Studiul este structurat în trei capitole, fiecare abordând un aspect crucial al temei generale de cercetare. Capitolul 1 este despre date masive și data Mining. Acest capitol oferă o prezentare cuprinzătoare a peisajului big data și data mining, evidențiind provocările și oportunitățile generate de creșterea exponențială a datelor în domenii diverse. Accentul este pus pe înțelegerea fundațiilor teoretice ale tehnicilor de data mining și a aplicațiilor practice în extragerea de informații valoroase din seturi de date mari. Capitolul explorează, de asemenea, importanța procesării eficiente și a managementului datelor în contextul analizei big data. Capitolul 2 este despre Python, Pandas și scikit-learn, concentrându-se pe implementarea practică a analizei datelor, acest capitol se adâncește în capacitățile limbajului de programare Python și ale bibliotecilor sale larg utilizate - Pandas și scikit-learn. Se examinează modul în care aceste instrumente facilitează manipularea eficientă a datelor, explorarea și aplicarea algoritmilor de învățare automată pentru analiză predictivă. În capitolul 3 se relatează despre structura sistemului proiectat pentru analiza datelor. Se iau cazurile pentru sistemul de returnare a informației. Acestea vizează și modele lingvistice largi, dar și date prestate de Biroul Național de Statistică al Moldovei. Datele sunt colectate cu ajutorul unui crawler web implementat specific pentru a parcurge datele din această sursă. Ulterior sunt descrise etapele de curățare și organizare a datelor. Mai mult, capitolul 3 expune procesul de utilizare a modelelor lingvistice largi pentru a analiza datele, dar și utilizarea unui model lingvistic creat de la zero. Relatările capitolului 4 se referă la rezultatele obținute în urma proiectării și realizării sistemului informatic descrise în capitolul 3 pe baza datelor acumulate pe baza datelor acumulate corespunzător descrierii expuse la fel în capitolul 3. În cadrul capitolului sunt aduse exemple de performanță, precizie și cazuri de utilizare a sistemului. Mai mult, sunt făcute și comparații între modelele lingvistice largi care sunt utilizate ca parte dinamică a sistemului informatic. Prin această explorare expusă în mai multe capitole, teza își propune să demonstreze sinergia dintre domeniile datelor masive, data mining și implementarea tehnică în limbajul Python, culminând prin integrarea inovatoare a Langchain pentru a avansa în domeniul analizei predictive. Concluziile prezentate aici contribuie la peisajul în continuă evoluție al științei datelor, oferind perspective practice pentru cercetători, practicieni și organizații care doresc să valorifice în întregime potențialul datelor utilizate. en_US
dc.description.abstract This thesis explores the intersection of big data, data mining, and machine learning through the lens of Python-based technologies, specifically Pandas, scikit-learn, and Langchain. The study is structured into three chapters, each addressing a crucial aspect of the overall research theme. Chapter 1 focuses on big data and data mining. This chapter provides a comprehensive overview of the big data and data mining landscape, highlighting the challenges and opportunities posed by the exponential growth of data in various fields. The emphasis is on understanding the theoretical foundations of data mining techniques and their practical applications in extracting valuable insights from large datasets. The chapter also explores the importance of efficient data processing and management in the context of big data analytics. Chapter 2 delves into Python, Pandas, and scikit-learn, concentrating on the practical implementation of data analysis. This chapter explores the capabilities of the Python programming language and its widely used libraries—Pandas and scikit-learn. It examines how these tools facilitate efficient data manipulation, exploration, and the application of machine learning algorithms for predictive analytics. In Chapter 3, the structure of the system designed for data analysis is discussed. The cases for the information retrieval system are considered, targeting both large language models and data provided by the National Bureau of Statistics of Moldova. The data is collected using a web crawler implemented specifically to navigate through this source. Subsequently, the steps of data cleaning and organization are described. Furthermore, chapter 3 outlines the process of using large language models to analyze the data, as well as the use of a language model created from scratch. Chapter 4 reports the results obtained from the design and implementation of the computer system described in chapter 3, based on the data accumulated corresponding to the description outlined in chapter 3. The chapter provides examples of performance, accuracy, and use cases of the system. Moreover, a comprehensive comparison is made between the large languages models used as a dynamic part of the computer system. Through this exploration across multiple chapters, the thesis aims to demonstrate the synergistic power of big data, data mining, and Python-based technologies, culminating in the innovative integration of Langchain to advance the field of predictive analytics. The conclusions presented here contribute to the ever-evolving landscape of data science, providing practical perspectives for researchers, practitioners, and organizations looking to fully leverage the potential of their data assets. en_US
dc.language.iso ro en_US
dc.publisher Universitatea Tehnică a Moldovei en_US
dc.rights Attribution-NonCommercial-NoDerivs 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/us/ *
dc.subject date masive en_US
dc.subject data mining en_US
dc.subject învățare automată en_US
dc.subject big data en_US
dc.subject machine learning en_US
dc.subject Python-based technologies en_US
dc.title Managementul datelor prin aplicarea algoritmilor de învățare automată en_US
dc.type Thesis en_US


Files in this item

The following license files are associated with this item:

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States

Search DSpace


Browse

My Account