Actualitatea temei. Data Mining este un proces de a găsi modele potențial utile din seturi de date imense. Este o abilitate multidisciplinară care folosește învățarea automată, statistici și AI pentru a extrage informații pentru a evalua probabilitatea evenimentelor viitoare. Statisticile derivate din Data Minin g sunt utilizate pentru marketing, detectarea fraudei, descoperirea științifică etc.
O dată cu dezvoltarea rapidă a tehnologiilor informaţionale a apărut necesitatea dezvoltării sistemelor informaţionale, pentru a programa sisteme soft care ar putea stoca cantităţi enorme de informaţii şi ar putea reda prin comenzi simple şi uşor de asimilat date exacte despre conţinutul bazei de date, precum şi prelucrarea unor altor tipuri de date nefiind obligatoriu să prelucreze date sub formă de tabele dar pot fi date grafice sau date de avertizare sau de alt tip din domeniul informaticii, care sigur este domeniul cel mai important la ziua de azi precum şi cel mai cercetat care datorită posibilităţi vaste pe care le poate îndeplini un soft combinat cu hard. Astfel viitorul zilei de mâne al oricărui domeniu nu poate fi conceput fără folosirea unui soft al domeniului respectiv.
În lucrare sunt studiate metode de prelucrare a textului şi crearea modulelor de determinare a modelelor de detectare a conţinutului. Este un lucru enorm în cadrul unui sistem de căutare centralizat sau pentru un sistem inteligent. A fost creat un instrument de anilza a datelor textuale cu ajutorul tehnicilor Data Mining si desigur intrumentul a fost verificat, fiind prezentate rezultate unei anilize.
The actuality of the subject. Data Mining is a process of finding potentially useful models from huge datasets. It is a multidisciplinary skill that uses machine learning, statistics and AI to extract information to assess the likelihood of future events. Statistics derived from Data Mining are used for marketing, fraud detection, scientific discovery, etc.
With the rapid development of information technologies came the need to develop information systems to program software systems that could store huge amounts of information and could render through simple and easy to assimilate accurate data about the contents of the database, as well as processing other types of data are not required to process data in the form of tables but can be graphical data or warning or other data in the field of informatics, which is certainly the most important field today and the most researched due to the possibilities vast that a software combined with hardware can accomplish. Thus, the future of tomorrow of any field cannot be conceived without the use of software of that field.
Technologies used: data mining, data statistics, R + language.
The paper studies methods of word processing and the creation of modules for determining content detection models. It's a huge thing in a centralized search system or for a smart system. A text data analysis tool was created using Data Mining techniques and of course the tool was verified, presenting the results of an analysis.