Știința datelor orientată spre afaceri
Publicat: 2018-12-13Ei spun că Data Scientist este cea mai sexy slujbă a secolului 21 (și toți Data Scientists pe care i-am întâlnit la diferite conferințe știu asta). Dar când vorbesc doar despre partea teoretică a învățării automate, uneori mă întreb dacă știu de ce munca lor este fierbinte. Motivul este că un Data Scientist știe cum să combine datele, abilitățile tehnice și cunoștințele statistice pentru a atinge obiectivele de afaceri. Deci, pentru a face bine Data Science, trebuie să vă gândiți mai întâi la afacere.
Cunosc cazuri în care companiile au adăugat instrumente de analiză pentru a urmări atingerea fiecărui utilizator, fără a lua în considerare ceea ce doresc de fapt să realizeze. Au adunat o mulțime de date pe care nu le-au înțeles și nu le-au putut folosi pentru a-și avansa afacerea.
Nu faceți astfel de greșeli! Gândiți-vă la obiectivele dvs. și la specificul industriei în fiecare pas al procesului Data Science. Cu cât ești mai creativ, cu atât șansele tale de succes sunt mai mari. Pentru a dovedi acest lucru, vă voi arăta câteva exemple inspiratoare de Data Science în aplicațiile giganților...
Cum să începeți aventura în știința datelor
Ați auzit că multe companii folosesc ML pentru a-și crește veniturile, dar nu aveți idee cum să începeți? Pentru a nu ajunge cu o infrastructură costisitoare și date nefolositoare (pentru a-ți îndeplini nevoile afacerii), ar trebui să începeți cu a oferi răspunsuri la următoarele întrebări:
Care sunt obiectivele de afaceri ale clientului? Cum putem folosi datele pentru a le realiza?
Apoi puteți începe să planificați ce date pot fi urmărite și utilizate.
Colectarea datelor
Ce date ar trebui să adunăm? Răspunsul la această întrebare s-ar putea să te surprindă. Potrivit lui Todd Yellin (vicepreședintele Netflix pentru inovare de produse), există două tipuri de date care pot fi utilizate: explicite și implicite [1]. În cazul Netflix, explicit este atunci când utilizatorul evaluează literalmente un film. Implicite, pe de altă parte, sunt datele comportamentale – bazate pe clicurile utilizatorilor și pe utilizarea aplicației. Care tip este mai valoros?
Nu există un răspuns universal la această întrebare, dar în majoritatea cazurilor, datele implicite ar fi mai utile . Și asta pentru că... oamenii mint.
Luați în considerare exemplul bărbatului care spune că iubește documentarele și care le evaluează 5/5. Dar, după cum arată datele, el urmărește acest gen o dată pe an. În același timp, urmărește seriale populare în fiecare vineri seară. Și pentru că este obosit după muncă și vrea doar să se relaxeze pe canapea. Deci, ce date ar trebui folosite pentru a pregăti un astfel de sistem de recomandare: evaluarea sau comportamentul utilizatorului?
Pentru a răspunde la această întrebare, trebuie să ne gândim la scopul de afaceri al dezvoltării sale. Scopul Netflix este de a încuraja un utilizator să vizioneze mai multe filme. Au început cu popularul sistem de rating de cinci stele. Când și-au dat seama că este mai probabil ca utilizatorii menționați să vadă Friends în loc de un film despre al Doilea Război Mondial, au dezvoltat sistemul de recomandare bazat pe comportamentul utilizatorului. De asemenea, au scăzut ratingul de cinci stele și l-au înlocuit cu un sistem mai simplu, binar, de degetul mare în sus, în jos.
După cum arată acest exemplu, datele colectate trebuie selectate ținând cont de specificul industriei și ar trebui să aducă suficiente informații pentru a înțelege deciziile și nevoile utilizatorilor. Dar aici întâlnim o altă problemă: datele comportamentale, textele și alte date nestructurate sunt mai dificil de analizat și utilizat în modelele de învățare automată decât cele structurate. Așa că acum este timpul să vorbim despre ingineria caracteristicilor.
Inginerie caracteristică
Pentru a arăta cât de importantă este ingineria caracteristicilor în Data Science, aș dori să-l citez pe Andrew Ng – co-fondator Google Brain și fondator deeplearning.ai:
Elaborarea de funcții este dificilă, necesită timp și necesită cunoștințe de specialitate. Învățarea automată aplicată este practic ingineria caracteristicilor. [2].
https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf
Un exemplu interesant de abordare bazată pe scop a procesării datelor este Booking.com, unde utilizatorii pot evalua hoteluri de la 0 la 10. Dar dacă un animal de petrecere apreciază hotelul foarte bine, este o alegere bună pentru familiile cu copii? Nu neaparat.

Din fericire, există și comentarii ale utilizatorilor care conțin mai multe informații de care avem nevoie. Booking.com folosește analiza sentimentelor și modelarea subiectelor pentru a extrage punctele forte și punctele slabe ale hotelului comentat și preferințele utilizatorilor cu privire la cazare.
Să luăm în considerare acest exemplu:

Un subiect Dotări camere au sentiment negativ (utilizatorul se plânge de duș, pat, wifi și aer condiționat). În același timp, acest utilizator laudă Valoarea pentru prețul hotelului, personalului și alimentelor. Sistemul analizează și ceea ce nu a fost menționat în comentariu și, prin urmare, probabil că nu este important pentru utilizator – în exemplul nostru, poate fi viața de noapte.
Cu aceste perspective, platforma poate oferi hoteluri mai potrivite pentru utilizatorii cu profil similar, în acest caz, o familie cu copii care caută un loc unde să petreacă vacanța într-un hotel liniștit la un preț rezonabil. În plus, Booking.com sortează comentariile pentru a afișa cele mai interesante informații pentru spectator în partea de sus.
Acest lucru duce la o situație de câștig-câștig: utilizatorii pot găsi oferte adaptate nevoilor lor specifice mai rapid și mai ușor, iar platforma realizează profit, deoarece aceste oferte sunt cele pe care utilizatorii au mai multe șanse să le cumpere.

Ești curios despre Data Science?
Află mai multeProdus de date
Ați implementat un produs de date cu rezultate satisfăcătoare? Nu este momentul să fii mulțumit. După cum arată exemplul Netflix [3] , munca continuă pentru îmbunătățirea sistemului poate aduce câștiguri semnificative. Este suficientă o recomandare corectă de film? Ce am mai putea face?
Una dintre abordările Netflix out-of-the-box nu este doar de a recomanda filme, ci și de a le ilustra cu o imagine care ar fi cea mai atrăgătoare pentru un anumit utilizator. Să spunem că îți recomandă Good Will Hunting . Dacă ați urmărit o mulțime de comedii romantice în trecut, s-ar putea să vedeți o imagine a unui cuplu care se sărută, în timp ce dacă sunteți un fan al comediei, cel mai probabil veți avea o fotografie cu un comediant american popular:

Cu această abordare, un utilizator care defilează printr-o multitudine de opțiuni este mult mai probabil să găsească un film care le atrage atenția.
Aceasta și alte strategii de recomandare au rezultate uimitoare – mai mult de 80% din conținutul platformei se bazează pe recomandări algoritmice . Înseamnă că este greu pentru un utilizator să rămână fără lucruri de vizionat. Când o emisiune se termină, Netflix este acolo pentru a sugera următoarea.
În afacerea lor, asta oferă un avantaj competitiv, deoarece utilizatorii sunt mult mai puțin probabil să-și anuleze abonamentele. Această aplicație extrem de de succes a Data Science a fost realizată în mare parte prin buna înțelegere a afacerii lor și a utilizatorilor aplicației.
Rezumatul
La una dintre conferințele Data Science din acest an, un vorbitor implicat în predicțiile riscului de credit a spus:
Când oamenii mă întreabă care este, practic, meseria mea, răspund: aduc valori de afaceri bazate pe date.
Pentru mine, aceasta este una dintre cele mai bune definiții ale științei datelor. Ea nu trebuie să fie orientată doar pe bazele sale teoretice, ci mai ales pe afaceri. Dacă doriți să creați o aplicație bună de învățare automată, trebuie să vă gândiți la modul în care se comportă utilizatorii în sistemul dvs. și de ce au nevoie. Având în vedere acest lucru, îți vei atinge obiectivele de afaceri cu succes.