Apa Saja Jenis Big Data?

Diterbitkan: 2022-11-24

Memahami jenis data besar dapat mempersiapkan Anda dengan lebih baik untuk menangani kumpulan data besar

Banyak kemajuan dalam AI, pembelajaran mesin , dan analitik bisnis dimungkinkan karena data besar. Data memperkuat algoritme yang membuat mobil dapat mengemudi sendiri, menyarankan film berikutnya yang harus kita tonton, dan memberi tahu pemimpin bisnis cara meningkatkan pendapatan.

Namun tidak semua data dibuat sama.

Untuk mengklasifikasikan, mengatur, dan menganalisis data yang dihasilkan oleh bisnis dan pelanggannya secara efektif, seorang analis bisnis atau ilmuwan data perlu mengetahui jenis data yang mereka gunakan.

/ Apa itu data besar?

Data besar mengacu pada informasi bervolume tinggi, berkecepatan tinggi, atau beragam tinggi yang memerlukan pemrosesan dan analisis canggih. Datanya saja tidak membantu—nalisis datalah yang merupakan kunci untuk meningkatkan proses bisnis. Bisnis menggunakan beberapa teknik untuk menganalisis data besar, seperti penambangan data, yang menyoroti pola dalam data. Sebagai contoh, perusahaan dapat menambang data untuk mempelajari penawaran penjualan apa yang menarik bagi konsumen tertentu. Ketika perusahaan menangani data besar dengan benar, itu memfasilitasi keputusan yang lebih baik dan membantu mereka memberikan layanan pelanggan yang lebih baik dan produk yang lebih baik.

Mari selami karakteristik dan tipe utama data besar.

Karakteristik data besar: 5 Vs

Meskipun big data adalah istilah umum yang berlaku untuk banyak jenis data, ada lima karakteristik yang biasanya digunakan untuk mendefinisikan big data (juga dikenal sebagai 5 Vs atau fitur big data).

1. Volume

Karakteristik ini sesuai namanya: Big data is big. Pengertian besar itu relatif, dan berubah tergantung teknologi yang tersedia saat itu. Misalnya, hard drive tiga gigabyte pernah dianggap besar, sementara sekarang laptop dengan penyimpanan terabyte sudah standar.

2. Kecepatan

Data besar dihasilkan dengan cepat. Sensor pada perangkat IoT mengirim pesan beberapa kali per detik. Analitik situs web memantau setiap gerakan mouse yang dilakukan pengunjung untuk mendapatkan wawasan tentang kebiasaan menjelajah mereka. Aplikasi yang menggunakan data ini seringkali perlu memprosesnya sedekat mungkin dengan waktu nyata.

3. Variasi

Variasi adalah topik utama dari artikel ini (jadi baca terus untuk mengetahui lebih lanjut!). Ada variasi yang signifikan dalam big data; setiap organisasi yang mengumpulkan data melakukannya dari berbagai sumber dan dalam berbagai format. Untuk mengubah data ini menjadi informasi yang berguna, data dari berbagai sumber harus digabungkan.

4. Kejujuran

Veracity adalah karakteristik yang menentukan kualitas data. Tidak semua data yang dikumpulkan lengkap; mungkin tidak akurat atau berisi poin data yang rusak. Data besar yang berantakan bisa lebih berbahaya daripada kebaikan; data mungkin perlu dibersihkan atau dibuang untuk memberikan wawasan yang akurat.

5. Nilai

Bisnis yang hanya memiliki banyak data tidak berarti semua datanya berguna. Karakteristik lain yang menentukan dari data besar adalah bahwa hal itu akan memberikan nilai dalam bentuk wawasan.

Berpikir untuk menyewa perusahaan analitik data untuk membantu data besar? Telusuri daftar firma analitik data teratas kami dan pelajari lebih lanjut tentang layanan mereka di panduan perekrutan Capterra.

3 jenis utama data besar

Meskipun kami dapat membuat kategori dalam jumlah tak terbatas untuk berbagai jenis data besar, jauh lebih mudah untuk mengurutkan data besar menjadi tiga jenis utama: terstruktur, tidak terstruktur, dan semi terstruktur.

1. Data terstruktur

Data besar terstruktur adalah data yang disimpan dalam skema tetap. Paling umum, ini berarti disimpan dalam sistem manajemen basis data relasional atau RDBMS. Data ini disimpan dalam tabel di mana setiap record memiliki kumpulan properti tetap, dan setiap properti memiliki tipe data tetap.

Salah satu contohnya adalah catatan pengguna dalam database :.

PENGENAL

Surel

Nama

Kota

Negara

Kode Pos

1

[email protected]

Bob

Kota Kansas

MO

64030

2

[email protected]

Sara

Chicago

IL

60007

3

[email protected]

Sam

New York

NY

10001

4

[email protected]

Rick

Los Angeles

CA

90001

Setiap record dalam tabel ini memiliki struktur yang sama, dan setiap properti memiliki tipe tertentu. Misalnya, kolom Negara dibatasi dua huruf besar, dan kolom ID dan kode ZIP dibatasi bilangan bulat. Jika Anda mencoba memasukkan catatan dalam database yang tidak cocok dengan struktur ini, itu tidak akan mengizinkannya, dan kesalahan akan ditampilkan.

Data besar terstruktur biasanya bersifat relasional. Ini berarti record seperti tabel user di atas dapat ditautkan ke record atau record di tabel lain. Katakanlah tabel pengguna untuk keranjang belanja, dan setiap pengguna memiliki pesanan.

PENGENAL

Identitas pengguna

Barang

Total

1

1

Cangkir

2.00

2

2

Mangkuk

4.00

3

2

Piring

3.00

4

4

Sendok

1.00

Properti User_ID dari tabel pesanan di atas menautkan pesanan ke ID di tabel pengguna. Kita dapat melihat bahwa Sara memiliki dua pesanan, dan Sam belum memesan.

Jenis struktur statis ini membuat data konsisten dan mudah dimasukkan, dikueri, dan diatur. Bahasa yang digunakan untuk query tabel database seperti ini adalah SQL (Structured Query Language). Dengan menggunakan SQL, pengembang dapat menulis kueri yang menggabungkan catatan dalam tabel database dalam kombinasi tanpa akhir berdasarkan hubungannya.

Kerugian dari data terstruktur adalah memperbarui struktur tabel bisa menjadi proses yang rumit. Banyak pemikiran harus dimasukkan ke dalam struktur tabel bahkan sebelum Anda mulai menggunakan database. Jenis data besar ini tidak sefleksibel data semi-terstruktur.

2. Data tidak terstruktur

Menurut beberapa perkiraan, 80-90% data tidak terstruktur. [ 1 ] Tapi apa itu data besar yang tidak terstruktur? Data apa pun yang tidak sesuai dengan dua kategori lainnya di sini dianggap tidak terstruktur.

Segala sesuatu yang disimpan secara digital adalah data. Data tidak terstruktur termasuk teks, email, video, audio, log server, halaman web, dan seterusnya. Tidak seperti data terstruktur dan semi-terstruktur yang dapat ditanyakan dan dicari secara konsisten, data tidak terstruktur tidak mengikuti model data yang konsisten.

Ini berarti bahwa alih-alih hanya menggunakan kueri untuk mengubah data ini menjadi informasi yang berguna, proses yang lebih kompleks harus digunakan, bergantung pada sumber datanya. Di sinilah pembelajaran mesin, kecerdasan buatan, pemrosesan bahasa alami, dan pengenalan karakter optik (OCR) dapat berguna.

Salah satu contoh data tidak terstruktur adalah tanda terima yang dipindai yang disimpan untuk laporan pengeluaran. Dalam format gambar aslinya, data pada dasarnya tidak berguna. Di sini, perangkat lunak OCR dapat mengubah gambar menjadi data terstruktur yang kemudian dapat dimasukkan ke dalam database.

Kerugian dari data besar yang tidak terstruktur adalah sulit untuk diproses, dan setiap sumber data membutuhkan prosesor khusus. Keuntungan mencakup keberadaan banyak jenis data tidak terstruktur, karena wawasan yang dikumpulkan darinya seringkali tidak dapat ditemukan di sumber data lain mana pun.

3. Data semi-terstruktur

Data besar semi-terstruktur berada di antara data terstruktur dan tidak terstruktur. Sumber umum data semi-terstruktur adalah dari database NoSQL. Data dalam database NoSQL diatur, tetapi tidak relasional dan tidak mengikuti skema yang konsisten.

Misalnya, rekaman pengguna di database NoSQL mungkin terlihat seperti ini:

{ _id: ObjectId("5effaa5662679b5af2c57829"), email: "[email protected]", nama: "Sam", alamat: "101 Main Street" kota: "Kemerdekaan", negara bagian: "Iowa" }

Di sini, pengguna mengakses data yang mereka butuhkan dengan kunci dalam catatan. Dan meskipun terlihat mirip dengan catatan dalam contoh data terstruktur di atas, format tabelnya tidak konsisten.

Sebaliknya, itu dalam format JSON, yang digunakan untuk menyimpan dan mengirimkan objek data. Meskipun satu record dalam database ini mungkin memiliki rangkaian atribut ini, bukan berarti record lainnya akan memiliki struktur yang sama. Rekor berikutnya mungkin tidak memiliki alamat jalan tetapi memiliki kode ZIP.

Keuntungan dari data semi-terstruktur yang disimpan dalam database NoSQL adalah sangat fleksibel. Jika Anda perlu menambahkan lebih banyak data ke rekaman, cukup tambahkan dengan kunci baru. Ini juga bisa menjadi kerugian jika Anda membutuhkan data agar konsisten.

Tapi data NoSQL bukan satu-satunya jenis data besar semi-terstruktur. XML dan YAML adalah dua format data fleksibel lainnya yang digunakan aplikasi untuk mentransfer dan menyimpan data. Email juga dapat dianggap sebagai data semi-terstruktur karena bagian-bagiannya dapat diuraikan secara konsisten, seperti alamat email, waktu pengiriman, dan alamat IP, sedangkan badannya adalah data yang tidak terstruktur.

Membandingkan data terstruktur, semi terstruktur, dan tidak terstruktur

Tabel ini menggambarkan dengan lebih baik perbedaan antara ketiga jenis data besar ini:

Tersusun

Semi-terstruktur

Tidak terstruktur

Format

Paling umum data dari database relasional di mana data disusun dalam tabel terstruktur dan memiliki tipe tertentu seperti integer, float, dan teks.

Data paling umum dari database NoSQL dan ditransfer dalam bahasa serialisasi data seperti JSON, XML, atau YAML.

Data tidak terstruktur tidak mengikuti skema apa pun dan dapat berupa file log, teks mentah, gambar, video, dan lainnya.

Meminta

Dapat ditanyakan dengan cepat menggunakan SQL dengan cara yang terstruktur dan konsisten.

Data ini dapat ditanyakan, tetapi karena sifatnya semi-terstruktur, catatan mungkin tidak konsisten.

Data mentah harus diuraikan dan diproses dengan kode khusus dalam banyak kasus.

Transaksi

Database mendukung transaksi untuk memastikan data dependen diperbarui.

Transaksi sebagian didukung dalam database NoSQL.

Transaksi tidak dimungkinkan dengan data yang tidak terstruktur.

Fleksibilitas

Kumpulan data terstruktur memiliki proses pembaruan yang kompleks dan tidak terlalu fleksibel.

Basis data NoSQL fleksibel karena skema data dapat diperbarui secara dinamis.

Data tidak terstruktur adalah yang paling fleksibel tetapi juga paling sulit untuk diproses.

Evaluasi sumber data Anda untuk memulai dengan big data

Langkah pertama yang baik dalam proyek data besar apa pun adalah melakukan inventarisasi semua sumber data yang tersedia untuk Anda dan bisnis Anda dan mengelompokkannya berdasarkan jenisnya. Ini memungkinkan Anda untuk mulai memproses dan menyusun data untuk memberikan wawasan yang bermanfaat.

Untuk mempelajari lebih lanjut tentang big data dan perannya dalam bisnis modern, lihat referensi berikut:

  • Apa itu Big Data, dan Bagaimana Itu Dihasilkan?

  • Cara Membuat Strategi Kecerdasan Bisnis Baru Anda