Büyük Veri Türleri Nelerdir?

Yayınlanan: 2022-11-24

Büyük veri türlerini anlamak, sizi büyük veri kümelerini işlemeye daha iyi hazırlayabilir

Yapay zeka , makine öğrenimi ve iş analitiğindeki ilerlemelerin çoğu büyük veriler sayesinde mümkün. Veriler, arabaları kendi kendine süren algoritmalara güç verir, izlememiz gereken bir sonraki filmi önerir ve iş liderlerine geliri nasıl artıracaklarını söyler.

Ancak tüm veriler aynı şekilde oluşturulmaz.

Bir işletme ve müşterileri tarafından üretilen verileri etkili bir şekilde sınıflandırmak, düzenlemek ve analiz etmek için bir iş analisti veya veri bilimcinin ne tür verilerle çalıştığını bilmesi gerekir.

/ Büyük veri nedir?

Büyük veri, karmaşık işleme ve analiz gerektiren yüksek hacimli, yüksek hızlı veya çok çeşitli bilgileri ifade eder. Veriler tek başına yararlı değildir; iş süreçlerini iyileştirmenin anahtarı verilerin analizidir. İşletmeler, verilerdeki kalıpları vurgulayan veri madenciliği gibi büyük verileri analiz etmek için çeşitli teknikler kullanır. Örnek olarak, şirketler hangi satış tekliflerinin belirli tüketicilere hitap edeceğini öğrenmek için veri madenciliği yapabilir. Şirketler büyük verileri doğru bir şekilde ele aldığında daha iyi kararlar alınmasını kolaylaştırır ve daha iyi müşteri hizmetleri ve daha iyi ürünler sunmalarına yardımcı olur.

Büyük verinin özelliklerine ve ana türlerine bakalım.

Büyük veri özellikleri: 5 Vs

Büyük veri, birçok veri türü için geçerli olan genel bir terim olsa da, büyük veriyi tanımlamak için tipik olarak kullanılan beş özellik vardır (5 V'ler veya büyük verinin özellikleri olarak da bilinir).

1. Cilt

Adında bu özellik var: Büyük veri büyüktür. Büyük tanımı görecelidir ve o sırada mevcut olan teknolojiye bağlı olarak değişir. Örneğin, bir zamanlar üç gigabaytlık bir sabit sürücü çok büyük kabul edilirken, artık bir terabaytlık depolama alanına sahip bir dizüstü bilgisayar standart hale geldi.

2. Hız

Büyük veri hızla üretilir. IoT cihazlarındaki sensörler, saniyede birkaç kez mesaj gönderir. Web sitesi analizleri, ziyaretçilerin gezinme alışkanlıklarına ilişkin fikir edinmek için yaptıkları her fare hareketini izler. Bu verileri kullanan uygulamaların genellikle gerçek zamana mümkün olduğunca yakın bir şekilde işlemesi gerekir.

3. Çeşitlilik

Çeşitlilik bu makalenin ana konusudur (bu yüzden daha fazlası için okumaya devam edin!). Büyük verilerde önemli çeşitlilik vardır; veri toplayan her kuruluş, bunu birden çok kaynaktan ve birden çok biçimde yapar. Bu verileri yararlı bilgilere dönüştürmek için, çeşitli kaynaklardan gelen verilerin birleştirilmesi gerekir.

4. Doğruluk

Doğruluk, veri kalitesini tanımlayan bir özelliktir. Toplanan tüm veriler tamamlanmamıştır; hatalı olabilir veya bozuk veri noktaları içerebilir. Dağınık büyük veriler yarardan çok zarar verebilir; doğru bilgiler sağlamak için verilerin temizlenmesi veya atılması gerekebilir.

5. Değer

Bir işletmenin çok fazla veriye sahip olması, tüm verilerinin yararlı olduğu anlamına gelmez. Büyük verinin bir başka belirleyici özelliği de içgörüler biçiminde değer sağlayacak olmasıdır.

Büyük verilerle ilgili yardım için bir veri analitiği firması tutmayı mı düşünüyorsunuz? En iyi veri analitiği firmaları listemize göz atın ve Capterra'nın işe alma kılavuzunda hizmetleri hakkında daha fazla bilgi edinin.

3 ana büyük veri türü

Farklı büyük veri türleri için sonsuz sayıda kategori oluşturabilsek de, büyük verileri üç ana türe ayırmak çok daha kolaydır: yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış.

1. Yapılandırılmış veriler

Yapılandırılmış büyük veri, sabit bir şemada saklanan verilerdir. En yaygın olarak bu, ilişkisel bir veritabanı yönetim sisteminde veya RDBMS'de depolandığı anlamına gelir. Bu veriler, her kaydın sabit bir özellik kümesine sahip olduğu ve her özelliğin sabit bir veri türüne sahip olduğu tablolarda depolanır.

Bir örnek, bir veritabanındaki kullanıcı kayıtlarıdır:.

İD

E-posta

İsim

Şehir

Durum

Posta kodu

1

[email protected]

Bob

Kansas Şehri

MO

64030

2

[email protected]

sara

Chicago

il

60007

3

[email protected]

Sam

New York

New York

10001

4

[email protected]

Rick

Los Angeles

CA

90001

Bu tablodaki her kayıt aynı yapıya sahiptir ve her özelliğin belirli bir türü vardır. Örneğin, Eyalet sütunu iki büyük harfle sınırlıdır ve Kimlik ve Posta kodu sütunları tamsayılarla sınırlıdır. Veritabanına bu yapıya uymayan bir kayıt girmeye çalışırsanız buna izin vermez ve hata verir.

Yapılandırılmış büyük veri genellikle ilişkiseldir. Bu, yukarıdaki kullanıcı tablosu gibi bir kaydın bir kayda veya başka bir tablodaki kayıtlara bağlanabileceği anlamına gelir. Diyelim ki kullanıcı tablosu bir alışveriş sepeti için ve her kullanıcının siparişi var.

İD

Kullanıcı kimliği

Öğe

Toplam

1

1

Bardak

2.00

2

2

Tas

4.00

3

2

Plaka

3.00

4

4

Kaşık

1.00

Yukarıdaki sipariş tablosunun User_ID özelliği, siparişleri kullanıcı tablosundaki kimliklere bağlar. Sara'nın iki siparişi olduğunu ve Sam'in henüz sipariş vermediğini görebiliriz.

Bu tür bir statik yapı, verilerin tutarlı ve kolay girilmesini, sorgulanmasını ve organize edilmesini sağlar. Bunun gibi veritabanı tablolarını sorgulamak için kullanılan dil SQL'dir (Structured Query Language). Geliştiriciler SQL kullanarak, veritabanı tablolarındaki kayıtları ilişkilerine göre sonsuz kombinasyonlarda birleştiren sorgular yazabilirler.

Yapılandırılmış verilerin dezavantajı, bir tablonun yapısını güncellemenin karmaşık bir süreç olabilmesidir. Veritabanını kullanmaya başlamadan önce bile tablo yapılarına çok fazla düşünülmelidir. Bu tür büyük veriler, yarı yapılandırılmış veriler kadar esnek değildir.

2. Yapılandırılmamış veriler

Bazı tahminlere göre, verilerin %80-90'ı yapılandırılmamış. [ 1 ] Ancak yapılandırılmamış büyük veri nedir? Buradaki diğer iki kategoriye uymayan veriler yapılandırılmamış olarak kabul edilir.

Dijital olarak depolanan her şey veridir. Yapılandırılmamış veriler; metin, e-posta, video, ses, sunucu günlükleri, web sayfaları vb. içerir. Tutarlı bir şekilde sorgulanabilen ve aranabilen yapılandırılmış ve yarı yapılandırılmış verilerin aksine, yapılandırılmamış veriler tutarlı bir veri modelini izlemez.

Bu, bu verileri yararlı bilgilere dönüştürmek için yalnızca sorguları kullanmak yerine, veri kaynağına bağlı olarak daha karmaşık bir işlemin kullanılması gerektiği anlamına gelir. Bu noktada makine öğrenimi, yapay zeka, doğal dil işleme ve optik karakter tanıma (OCR) yararlı olabilir.

Yapılandırılmamış verilere bir örnek, gider raporları için saklanan taranmış makbuzlardır. Yerel görüntü formatlarında, veriler esasen işe yaramaz. Burada OCR yazılımı, görüntüleri daha sonra bir veritabanına eklenebilecek yapılandırılmış verilere dönüştürebilir.

Yapılandırılmamış büyük verinin dezavantajı, işlenmesinin zor olması ve her veri kaynağının özel bir işlemciye ihtiyaç duymasıdır. Avantajlar, birçok yapılandırılmamış veri türünün yalnızca varlığını içerir, çünkü bunlardan toplanan içgörüler genellikle başka herhangi bir veri kaynağında bulunamaz.

3. Yarı yapılandırılmış veriler

Yarı yapılandırılmış büyük veri, yapılandırılmış ve yapılandırılmamış veriler arasında bir yere sığar. Yaygın bir yarı yapılandırılmış veri kaynağı, NoSQL veritabanlarındandır. NoSQL veritabanındaki veriler organizedir ancak ilişkisel değildir ve tutarlı bir şema izlemez.

Örneğin, NoSQL veritabanındaki bir kullanıcı kaydı şöyle görünebilir:

{ _id: ObjectId("5effaa5662679b5af2c57829"), e-posta: "[email protected]", ad: "Sam", adres: "101 Main Street" şehir: "Independence", eyalet: "Iowa" }

Burada kullanıcılar, kayıttaki anahtarlar sayesinde ihtiyaç duydukları verilere ulaşırlar. Yukarıdaki yapılandırılmış veri örneğindeki kayıtlara benzer görünse de tutarlı bir tablo biçiminde değildir.

Bunun yerine, veri nesnelerini depolamak ve iletmek için kullanılan JSON biçimindedir. Veritabanındaki bu bir kayıt, bu öznitelik kümesine sahip olsa da, bu, diğer kayıtların aynı yapıya sahip olacağı anlamına gelmez. Bir sonraki kayıtta sokak adresi olmayabilir, ancak bunun yerine posta kodu olabilir.

Bir NoSQL veritabanında depolanan yarı yapılandırılmış verilerin bir avantajı, çok esnek olmasıdır. Bir kayda daha fazla veri eklemeniz gerekirse, onu yeni bir anahtarla eklemeniz yeterlidir. Tutarlı olmak için verilere ihtiyacınız varsa, bu aynı zamanda bir dezavantaj olabilir.

Ancak NoSQL verileri, tek yarı yapılandırılmış büyük veri türü değildir. XML ve YAML, uygulamaların verileri aktarmak ve depolamak için kullandığı diğer iki esnek veri biçimidir. Gövde yapılandırılmamış veri iken, e-posta adresleri, gönderme zamanı ve IP adresleri gibi parçaları tutarlı bir şekilde ayrıştırılabildiğinden, e-posta yarı yapılandırılmış veri olarak da kabul edilebilir.

Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri karşılaştırma

Bu tablo, bu üç büyük veri türü arasındaki farkları daha iyi göstermektedir:

yapılandırılmış

yarı yapılandırılmış

yapılandırılmamış

Biçim

En yaygın olarak, verilerin yapılandırılmış tablolarda düzenlendiği ve tamsayı, kayan nokta ve metin gibi belirli türlere sahip olduğu ilişkisel veritabanlarından alınan veriler.

Çoğunlukla NoSQL veritabanlarından alınan ve JSON, XML veya YAML gibi bir veri serileştirme dilinde aktarılan veriler.

Yapılandırılmamış veriler herhangi bir şemayı takip etmez ve günlük dosyaları, ham metin, resimler, videolar ve daha fazlasının biçimini alabilir.

sorgulama

Yapılandırılmış ve tutarlı bir şekilde SQL ile hızlı bir şekilde sorgulanabilir.

Bu veriler sorgulanabilir ancak yarı yapılandırılmış yapısı nedeniyle kayıtlar tutarlı olmayabilir.

Çoğu durumda ham verilerin özel kodla ayrıştırılması ve işlenmesi gerekir.

İşlemler

Veritabanları, bağımlı verilerin güncellenmesini sağlamak için işlemleri destekler.

İşlemler kısmen NoSQL veritabanlarında desteklenir.

Yapılandırılmamış verilerle işlem yapılması mümkün değildir.

Esneklik

Yapılandırılmış veri kümeleri, karmaşık bir güncelleme sürecine sahiptir ve çok esnek değildir.

NoSQL veritabanları esnektir çünkü veri şemaları dinamik olarak güncellenebilir.

Yapılandırılmamış veriler en esnek ama aynı zamanda işlenmesi en zor olanlardır.

Büyük veriye başlamak için veri kaynaklarınızı değerlendirin

Herhangi bir büyük veri projesinde iyi bir ilk adım, size ve işletmenize sunulan tüm veri kaynaklarının bir envanterini çıkarmak ve bunları türe göre kategorize etmektir. Bu, yararlı içgörüler sağlamak için verileri işlemeye ve derlemeye başlamanıza olanak tanır.

Büyük veri ve modern iş dünyasındaki rolü hakkında daha fazla bilgi edinmek için şu kaynaklara göz atın:

  • Büyük Veri Nedir ve Nasıl Üretilir?

  • Yeni İş Zekası Stratejinizi Nasıl Oluşturursunuz?