Ikaslea: Carlos Eduardo Lopes
Data Scientist Prestakuntza
Laburpena
Data scientist prestakuntza osatzeko azken lan-proposamena da asko identifikatzen dudan gai bat lantzea eta Python-ekin eredu prediktibo bat sortzea, eta hurrengo aldietarako aurreikuspena egitea eta Business Intelligence tresnen bidez bistaratzea.
Helburua
Eredu iragarleak garatu hainbat eredu-hipotesi aztertuz, BI barruan erabiltzeko errendimendurik onena duena aukeratuz.
Proiektuaren exekuzioa
Proiektu honetarako, hasiera batean bilaketa bat egin zen datu-basean , proiektu honen asmoa hasieratik salmenta eredu prediktiboa sortzea izan zen. Txikizkako enpresa baten datu-base bat aurkitu ondoren, posible izan zen modelizazio-prozesua abiaraztea.
Datuak GitHub plataforman gordeta, datu-baseak parametro hauek zituela identifikatu zen: salmenta-data, prezioa, eguneko stock-bolumena eta salmenta-bolumena.
Hasierako analisi prozesu honen ostean, ETL prozesua C Mailako Zerrenda Exekutiboa hasi zen. Datu-basea pandas liburutegiaren bidez kargatu zen, ondorengo doikuntzak modelatzeko, objektu gisa zegoen ‘data’ eremua datara bihurtuz eta ereduaren prestakuntzarako kateak ziren eremuak kenduz eta kendutako aldagaien data gehituz, esate baterako, astea. , asteko eguna, hilabetea eta urtea.
Prozesamendu guztiaren ondoren, datuen azterketa esploratzailea egin zen, ereduari ikuspegiak ekar ditzaketen puntu posibleak identifikatzeko.
Scikit-learn liburutegiarekin, datuak trebakuntzaren eta probaren artean bereizi ziren eredu prediktiboak exekutatzeko eta haien errendimendua ebaluatzeko probatzeko.
Oraindik aipatutako liburutegia erabiliz
bost analisi egin ditugu datuekin, erregresio what is the content marketing strategy that generates results? lineala, erregresio ez-lineala (2. graduko polinomioa), erregresio erabaki-zuhaitza, Ausazko baso-erregresioa eta MPL neurona-sareak erabiliz. 5 ereduak ebaluatu ondoren ikusi dugu haietako inork ez duela puntuazio egokirik lortu problema konpontzeko.
Nahiz eta emaitzak irakaskuntzarako egokiak ez izan, prozesu honen ostean, bi asteko datu-markoa kargatu zen, bi asteko iragarpen baterako parametroak simulatuz. Datu honekin, datu historikoak iragarpen datuekin bateratu eta csv-n esportatu ziren, ETL prozesua osatuz.
Datu-base berri honek Power BIn sortutako panel bat elikatzen zuen, proiektua amaituz, datu horien bistaratzea sortuz.
Ondorioak
Datuekin posible izan zen aurreikuspen-ereduen prozesu cl lists osoa egin eta azken entregarako kritikatzea. Uste dut eguneroko prozesu batean interesgarria izango litzatekeela eredua hobetzeko aldagai berriak gehitzea, hala nola, deskontuak, sustatutako elementu kopurua, Black Friday bezalako oroitzapen datak gehitzea prozesuan. Probatu datu-multzoa beste eredu batzuetan, hala nola denbora serieetan.
Azkenean, datuak zuzenean SQL datu-base batean kargatzeak prozesua sendoagoa izango luke.
Goiko esperientziatik ikus daiteke eredu prediktiboak jokaera desberdinak dituztela datu mota bakoitzerako, eta errendimendu hobea lortzeko, aproposa da hainbat eredu probatzea eta zure datuak modu ezberdinean modelatzea (ezaugarrien ingeniaritza), ereduaren errendimenduan oreka puntu bat aurkitzeko eta zehaztasuna.
Erreferentziak eta Koadernoak
Proiektuaren Koadernoa, helbidean eskuragarri
Erabilitako datu-basea eskuragarri
Artikulu honetan ikasi duguna:
Zein hizkuntza erabili zen amaierako proiektu honetan?
Nire data scientist prestakuntza osatzeko azken lan-proposamena da asko identifikatzen dudan gai bat lantzea eta Python-ekin eredu prediktiboa sortzea.