Jak wykorzystać uczenie maszynowe w analizie dużych zbiorów danych

Opublikowany: 2022-11-25

Uczenie maszynowe umożliwia organizacjom przekształcanie dużych zbiorów danych w informacje zwiększające zyski. Dowiedz się, jak duże zbiory danych i uczenie maszynowe są ze sobą powiązane i jak z nich korzystać.

Wiele lat temu właściciele firm musieli polegać na swojej pamięci, aby dostosować sposób obsługi swoich klientów. Kiedy pani Jones weszła do sklepu, właścicielka sklepu musiała przypomnieć sobie, co kupiła ostatnim razem, czy w końcu przyniosła to z powrotem i czy narzekała na to podczas ostatniej wizyty.

Teraz, dzięki dużym zbiorom danych, tony danych klientów i firm są na wyciągnięcie ręki. Wiesz, gdzie mieszka pani Jones, co kupiła w ciągu ostatnich 10 lat, ile wydała, jak często zwraca przedmioty i dziesiątki innych wskaźników. Korzystając z uczenia maszynowego, możesz przekształcić te i inne dane w informacje wspierające działalność biznesową. Oto zestawienie dużych zbiorów danych i uczenia maszynowego oraz sposobów ich wykorzystania do napędzania swojej firmy.

Czym są duże zbiory danych i uczenie maszynowe?

Big data i uczenie maszynowe są różne, ale ściśle ze sobą powiązane.

Co to są duże dane?

Big data odnosi się do ogromnych lub niewiarygodnie złożonych zbiorów danych, których wykorzystanie może być niemożliwe bez specjalistycznych narzędzi. Niektóre firmy nigdy nie mają do czynienia z dużymi danymi. Na przykład, jeśli masz restaurację z trzema lokalizacjami generującymi dane dotyczące sprzedaży i zapasów, to nie są „duże zbiory danych”.

Z drugiej strony, jeśli ta sama restauracja doda 10 kolejnych lokalizacji i aplikację mobilną, która umożliwia klientom składanie zamówień online, korzystanie z nagród lojalnościowych i czatowanie z przedstawicielem obsługi klienta za pośrednictwem wiadomości tekstowych, mamy teraz do czynienia z dużymi danymi. Sama aplikacja może generować dane dotyczące:

  • Posiłki, które klienci zamawiają najczęściej

  • Pory dnia klienci składają zamówienia

  • Skąd klienci zamawiają jedzenie na podstawie danych geolokalizacyjnych

  • Gdzie mieszkają klienci i statystyki zakupów powiązane z każdym miastem

  • Dane sprzedażowe z każdej lokalizacji

  • Jak klienci wykorzystują swoje punkty premiowe

  • Zakup danych w godzinach szczytu i świąt

Te przykłady tylko zarysowują powierzchnię. Tego rodzaju aplikacja może generować dziesiątki zestawów danych. Ponadto informacje będą napływać niemal bez przerwy. To są duże dane.

Co to jest uczenie maszynowe?

Uczenie maszynowe (ML) odnosi się do używania komputerów do rozpoznawania wzorców w danych. Uczenie maszynowe robi to za pomocą algorytmów, które są zestawami instrukcji ułożonych krok po kroku. Model uczenia maszynowego wykorzystuje kroki algorytmu do uczenia się wzorców. Obejmuje to również rozpoznawanie, kiedy wzorce są łamane i uczenie się, jak porównywać wzorce ze sobą.

Jako prosty przykład załóżmy, że chcesz zbudować algorytm uczenia maszynowego do analizy danych sprzedaży. Masz wyniki sprzedaży z pięciu lat. Twoim celem jest zmaksymalizowanie letnich zysków poprzez ustalenie, które produkty powinieneś oferować na sprzedaż między czerwcem a sierpniem.

Możesz zaprogramować swój system uczenia maszynowego, aby:

  • Agreguj dane dotyczące sprzedaży każdego ze swoich produktów, miesiąc po miesiącu.

  • Zidentyfikuj produkty, które mają największy wolumen sprzedaży między czerwcem a sierpniem.

  • Przewiduj sprzedaż związaną z oferowaniem każdego produktu.

  • Podpowiemy, jakie produkty oferować i czy w czerwcu, lipcu, sierpniu, czy przez wszystkie trzy miesiące.

Oczywiście możesz pójść o krok dalej w ML i uwzględnić swój koszt sprzedanych towarów (COGS) dla każdego produktu, w tym koszty wysyłki, robociznę, magazynowanie i inne dane. Wtedy Twój model ML mógłby rekomendować nie tylko produkty, które mają największy wolumen sprzedaży latem, ale także powiedzieć, które z nich przynoszą największy zysk netto.

Następnie możesz użyć tego samego modelu do dostarczania informacji o sprzedaży dla:

  • Poszczególne produkty w ciągu roku

  • Nowe produkty skierowane na podobne rynki docelowe

  • Co drugi miesiąc w roku

Czym jest uczenie maszynowe w dużych zbiorach danych?

W kontekście dużych zbiorów danych zawsze, gdy w danych mogą występować wzorce, możesz użyć uczenia maszynowego, aby je wykryć i dostarczyć przydatnych informacji. Możesz także użyć uczenia maszynowego do formułowania rekomendacji na podstawie wzorców analizowanych przez algorytmy.

Jak działa uczenie maszynowe z dużymi zbiorami danych

Jednym z najpopularniejszych zastosowań uczenia maszynowego są pojazdy samojezdne. Samochód wykorzystuje uczenie maszynowe do decydowania, co zrobić w odniesieniu do danych, które gromadzi z otoczenia i innych pojazdów.

Na przykład, gdy kamery wewnątrz samojezdnego pojazdu „zobaczą” znak stopu, mogą go rozpoznać i automatycznie włączyć hamulce. Proces stojący za tą decyzją najprawdopodobniej rozpoczął się od grupy analityków danych testujących wiele algorytmów uczenia maszynowego. Na wysokim poziomie wymaga to trzech kroków:

1. Szkolenie

Aby przeanalizować duże zbiory danych, analitycy danych najpierw używają zestawu szkoleniowego, aby nauczyć jeden lub więcej algorytmów, czego powinni szukać.

Na przykład ze znakiem stop zestaw uczący składałby się z tysięcy obrazów znaków stop. Inżynierowie danych prezentowaliby obrazy znaków stop pod różnymi kątami, w różnym oświetleniu, a nawet z drzewami lub innymi obiektami częściowo je zasłaniającymi.

Mamy nadzieję, że pod koniec fazy szkolenia algorytm zidentyfikował wzorce w kształtach i kolorach znaków stopu. Innymi słowy, wie, jak „wygląda” znak stopu — w różnym oświetleniu i pod różnymi kątami.

2. Walidacja

Zestaw sprawdzania poprawności służy do ustalenia, jak dokładny jest model ML przy użyciu zupełnie innego zestawu dużych zbiorów danych. Celem fazy walidacji jest odkrycie sposobów dostrojenia modelu ML.

Załóżmy na przykład, że model ML zaprojektowany do identyfikowania znaków stop był dokładny w 95%, a wszystkie błędne obrazy były bardzo ciemne. Deweloperzy mogliby następnie użyć innej formuły, która zwiększa kontrast każdego obrazu, ułatwiając dostrzeżenie ważnych cech modelu ML.

3. Testowanie

Faza testowania polega na dostarczeniu do modelu ML większej ilości dużych zbiorów danych, które są zupełnie inne niż te, które widział podczas faz szkolenia i sprawdzania poprawności.

Na przykład, aby przetestować model znaku stopu, programiści mogliby pokazać modelowi ML 250 000 obrazów różnych rodzajów znaków, z których część to znaki stopu. Następnie analizowali wyniki, aby zobaczyć, jak dokładnie model był w stanie rozróżnić znaki stopu, a także uniknąć błędnej identyfikacji innych rodzajów znaków.

Wyzwania związane z uczeniem maszynowym i dużymi danymi

Dwa z najbardziej zniechęcających wyzwań, przed którymi stoją analitycy danych wykorzystujący ML do badania dużych zbiorów danych, to niedokładność i dylematy etyczne.

1. Niedokładność

Oczywiście, nawet przy użyciu zaawansowanych procesów obliczeniowych, za każdym razem, gdy użyjesz uczenia maszynowego w analizie dużych zbiorów danych, nadal będziesz przechodzić przez element prób i błędów. Dzieje się tak dlatego, że nigdy nie wiadomo, które czynniki mogą zniekształcić wyniki podczas uczenia, sprawdzania poprawności i testowania modelu.

Na przykład podczas identyfikowania obrazów — takich jak znaki stopu lub ludzkie twarze — wiele czynników może przyczynić się do niskiej wydajności modelu uczenia maszynowego. Załóżmy na przykład, że opracowujesz model uczenia maszynowego, aby ulepszyć system bezpieczeństwa swojej firmy. W szczególności potrzebujesz modelu, który może identyfikować twarze dyrektorów i innych wysoko postawionych osób, aby umożliwić im dostęp do wrażliwych obszarów budynku. Podczas fazy walidacji system jest dokładny tylko w około 65%. Ale może to wynikać z kilku zmiennych, takich jak:

  • Pikselowane obrazy twarzy

  • Obrazy, które są nieostre

  • Osoba odwracająca wzrok podczas skanowania twarzy

  • Osoba decydująca się na noszenie okularów przeciwsłonecznych, maski na twarz, szalika lub czegoś innego, co mogłoby zniekształcić wyniki identyfikacji

2. Dylematy etyczne

Istnieją również wyzwania natury etycznej. Załóżmy na przykład, że dział HR wykorzystuje uczenie maszynowe do identyfikacji najbardziej wykwalifikowanych kandydatów, wyciągając ich z cyfrowego stosu 1500 życiorysów.

Jeśli model ML został przeszkolony przy użyciu firm i działów rekrutacji prowadzonych wyłącznie przez mężczyzn, dane mogą zawierać błąd. Niektórzy mężczyźni mogą być bardziej skłonni do zatrudniania innych mężczyzn – z powodów innych niż ich zasługi czy kwalifikacje. Dlatego „odnoszący sukcesy” kandydat, którego inżynierowie wyszkolili w modelu ML, może w większości przypadków być mężczyzną. W rezultacie model zaleca mężczyzn zamiast kobiet, które mogły być bardziej wykwalifikowane.

Jak w kontekście biznesowym powiązane są duże zbiory danych i uczenie maszynowe?

W kontekście biznesowym uczenie maszynowe wykorzystuje duże zbiory danych tworzone przez Twoją organizację w celu usprawnienia lub zautomatyzowania krytycznych procesów biznesowych oraz zwiększenia bezpieczeństwa. Potencjalne zastosowania są dosłownie nieskończone — i tak różnorodne, jak różne rodzaje tworzonych danych.

Na przykład fabryka lub zakład produkcyjny może wykorzystać uczenie maszynowe do optymalizacji poziomów temperatury i wilgotności w hali produkcyjnej. Na przykład modele uczenia maszynowego mogą dowiedzieć się:

  • Poziomy temperatury i wilgotności, które maksymalizują produktywność pracowników, jednocześnie minimalizując liczbę nieplanowanych przerw, które muszą zrobić

  • Idealne poziomy temperatury i wilgotności dla wrażliwych urządzeń, które mogą ulec szybszemu zniszczeniu w niewłaściwych warunkach

  • Najbardziej opłacalne warunki temperaturowe i wilgotnościowe, biorąc pod uwagę koszt eksploatacji systemów HVAC i osuszaczy

System można następnie wykorzystać do automatycznego sterowania systemem atmosferycznym w celu osiągnięcia optymalnych wyników.

W jaki sposób uczenie maszynowe i analiza dużych zbiorów danych są wykorzystywane w marketingu?

Marketing oferuje jedne z najbardziej obiecujących zastosowań uczenia maszynowego i analizy dużych zbiorów danych. Rozważ następujący przykład z życia wzięty.

Albert Harleya Davidsona zwiększa liczbę potencjalnych klientów o 2930%

Harley Davidson zbudował robota o imieniu Albert, który wykorzystuje uczenie maszynowe do podejmowania decyzji marketingowych [ 1 ] . W ten sposób Albert pomógł kierownictwu Harleya Davidsona odjechać w jaśniejszy zachód słońca.

Harley Davidson chciał wykorzystać istniejące relacje z poprzednimi klientami. Wykorzystali Alberta do analizy:

  • Jak często ludzie dokonywali zakupów

  • Ile ci klienci wydali

  • Ile czasu klienci spędzili przeglądając witrynę Harley Davidson

Następnie Albert wykorzystał te dane do podzielenia klientów na różne segmenty. Następnie zespół marketingowy stworzył kampanie testowe dla każdej kategorii klientów. Po przetestowaniu sukcesu kampanii zespół rozszerzył ją, aby objąć szeroką grupę poprzednich klientów.

W rezultacie Harley Davidson zwiększył sprzedaż o 40%. Wygenerowali również o 2930% więcej leadów. Połowa z tych tropów została bezpośrednio zidentyfikowana przez samego Alberta. Albert zbadał profile potencjalnych klientów, którzy z dużym prawdopodobieństwem przekształcą się w płacących klientów, a następnie przestudiował profile danych innych użytkowników i wskazał „podobnych”, czyli osoby, które mają wiele wspólnego z klientami o wysokiej konwersji.

Niezależnie od tego, czy próbujesz dowiedzieć się, co pani Jones kupi w następnej kolejności, czy też optymalizujesz wydajność złożonego zakładu produkcyjnego, uczenie maszynowe może zamienić pozornie przypadkowe duże zbiory danych w transformacyjne spostrzeżenia. Przy odrobinie burzy mózgów i kreatywnego myślenia możesz znaleźć sposoby na wykorzystanie uczenia maszynowego i dużych zbiorów danych, aby wyprzedzić konkurencję i przenieść swoją organizację na wyższy poziom.

W zależności od potrzeb możesz wynająć agencję do pomocy przy analizie danych. Zapoznaj się z naszymi przewodnikami dotyczącymi zatrudniania w zakresie analizy danych i uczenia maszynowego, aby wybrać najlepsze rozwiązanie dla Ciebie.