ประเภทของข้อมูลขนาดใหญ่คืออะไร?
เผยแพร่แล้ว: 2022-11-24การทำความเข้าใจประเภทของข้อมูลขนาดใหญ่สามารถเตรียมคุณให้พร้อมรับมือกับชุดข้อมูลขนาดใหญ่ได้ดีขึ้น
ความก้าวหน้ามากมายใน AI , การเรียนรู้ของเครื่อง และการวิเคราะห์ธุรกิจเป็นไปได้เนื่องจากข้อมูลขนาดใหญ่ ข้อมูลขับเคลื่อนอัลกอริทึมที่ทำให้รถยนต์ขับเคลื่อนได้เอง แนะนำภาพยนตร์เรื่องต่อไปที่เราควรดู และบอกผู้นำธุรกิจถึงวิธีเพิ่มรายได้
แต่ข้อมูลทั้งหมดไม่ได้ถูกสร้างขึ้นเหมือนกัน
ในการจำแนก จัดระเบียบ และวิเคราะห์ข้อมูลที่สร้างขึ้นโดยธุรกิจและลูกค้าอย่างมีประสิทธิภาพ นักวิเคราะห์ธุรกิจหรือนักวิทยาศาสตร์ข้อมูลจำเป็นต้องรู้ว่าพวกเขากำลังทำงานกับข้อมูลประเภทใด
/ ข้อมูลขนาดใหญ่คืออะไร?
ข้อมูลขนาดใหญ่หมายถึงข้อมูลที่มีปริมาณมาก ความเร็วสูง หรือมีความหลากหลายสูงซึ่งต้องการการประมวลผลและการวิเคราะห์ที่ซับซ้อน ข้อมูลเพียงอย่างเดียวไม่เป็นประโยชน์ การวิเคราะห์ข้อมูลนั้นเป็นกุญแจสำคัญในการปรับปรุงกระบวนการทางธุรกิจ ธุรกิจต่างๆ ใช้เทคนิคหลายอย่างในการวิเคราะห์ข้อมูลขนาดใหญ่ เช่น การทำเหมืองข้อมูล ซึ่งเน้นรูปแบบในข้อมูล ตัวอย่างเช่น บริษัทต่างๆ สามารถขุดข้อมูลเพื่อเรียนรู้ว่าข้อเสนอการขายใดที่จะดึงดูดผู้บริโภคโดยเฉพาะ เมื่อบริษัทต่างๆ จัดการกับข้อมูลขนาดใหญ่อย่างถูกต้อง จะช่วยให้ตัดสินใจได้ดีขึ้นและช่วยให้พวกเขามอบบริการและผลิตภัณฑ์ที่ดีขึ้นแก่ลูกค้าได้ดีขึ้น
มาดูลักษณะและประเภทหลักของข้อมูลขนาดใหญ่กัน
ลักษณะข้อมูลขนาดใหญ่: The 5 Vs
แม้ว่าข้อมูลขนาดใหญ่จะเป็นคำทั่วไปที่ใช้กับข้อมูลหลายประเภท แต่โดยทั่วไปแล้วจะมีลักษณะห้าประการที่ใช้ในการกำหนดข้อมูลขนาดใหญ่ (หรือที่เรียกว่า 5 Vs หรือคุณลักษณะของข้อมูลขนาดใหญ่)
1. ปริมาณ
ลักษณะนี้อยู่ในชื่อ: ข้อมูลขนาดใหญ่มีขนาดใหญ่ คำจำกัดความของคำว่า ใหญ่ นั้นสัมพันธ์กัน และเปลี่ยนแปลงขึ้นอยู่กับเทคโนโลยีที่มีอยู่ในขณะนั้น ตัวอย่างเช่น ฮาร์ดไดรฟ์ขนาด 3 กิกะไบต์เคยถือว่าใหญ่ แต่ปัจจุบันแล็ปท็อปที่มีพื้นที่เก็บข้อมูลขนาดเทราไบต์ถือเป็นอุปกรณ์มาตรฐาน
2. ความเร็ว
ข้อมูลขนาดใหญ่ถูกสร้างขึ้นอย่างรวดเร็ว เซ็นเซอร์บนอุปกรณ์ IoT ส่งข้อความหลายครั้งต่อวินาที การวิเคราะห์เว็บไซต์จะตรวจสอบทุกการเคลื่อนไหวของเมาส์ที่ผู้เข้าชมทำเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมการท่องเว็บของพวกเขา แอปพลิเคชันที่ใช้ข้อมูลนี้มักจะต้องประมวลผลให้ใกล้เคียงกับเวลาจริงมากที่สุด
3. ความหลากหลาย
ความหลากหลายคือหัวข้อหลักของบทความนี้ (โปรดอ่านต่อไปเพื่ออ่านเพิ่มเติม!) ข้อมูลขนาดใหญ่มีความหลากหลายอย่างมาก ทุกองค์กรที่เก็บรวบรวมข้อมูลจากหลายแหล่งและหลายรูปแบบ ในการเปลี่ยนข้อมูลนี้ให้เป็นข้อมูลที่เป็นประโยชน์ จะต้องรวมข้อมูลจากแหล่งต่างๆ
4. ความจริงใจ
ความจริงเป็นลักษณะที่กำหนดคุณภาพของข้อมูล ข้อมูลที่เก็บรวบรวมไม่สมบูรณ์ทั้งหมด อาจไม่ถูกต้องหรือมีจุดข้อมูลที่เสียหาย ข้อมูลขนาดใหญ่ที่ยุ่งเหยิงอาจส่งผลเสียมากกว่าผลดี ข้อมูลอาจต้องถูกล้างหรือทิ้งเพื่อให้ข้อมูลเชิงลึกที่ถูกต้อง
5. คุณค่า
ธุรกิจที่มีข้อมูลจำนวนมากไม่ได้หมายความว่าข้อมูลทั้งหมดจะมีประโยชน์ ลักษณะเฉพาะอีกประการหนึ่งของข้อมูลขนาดใหญ่คือจะให้คุณค่าในรูปแบบของข้อมูลเชิงลึก
กำลังคิดที่จะจ้างบริษัทวิเคราะห์ข้อมูลเพื่อขอความช่วยเหลือเกี่ยวกับข้อมูลขนาดใหญ่อยู่ใช่ไหม เรียกดูรายชื่อบริษัทวิเคราะห์ข้อมูลชั้นนำของเรา และเรียนรู้เพิ่มเติมเกี่ยวกับบริการของพวกเขาในคู่มือการจ้างงานของ Capterra
ข้อมูลขนาดใหญ่ 3 ประเภทหลัก
ในขณะที่เราสามารถสร้างหมวดหมู่จำนวนไม่สิ้นสุดสำหรับข้อมูลขนาดใหญ่ประเภทต่างๆ ได้ การจัดเรียงข้อมูลขนาดใหญ่ออกเป็นสามประเภทหลักจะง่ายกว่ามาก: มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งมีโครงสร้าง
1. ข้อมูลที่มีโครงสร้าง
ข้อมูลขนาดใหญ่ที่มีโครงสร้างเป็นข้อมูลที่จัดเก็บไว้ในสคีมาคงที่ โดยทั่วไปหมายความว่ามันถูกจัดเก็บไว้ในระบบจัดการฐานข้อมูลเชิงสัมพันธ์หรือ RDBMS ข้อมูลนี้ถูกจัดเก็บไว้ในตารางที่แต่ละระเบียนมีชุดคุณสมบัติคงที่ และแต่ละคุณสมบัติมีประเภทข้อมูลคงที่
ตัวอย่างหนึ่งคือบันทึกผู้ใช้ในฐานข้อมูล:.
รหัส | อีเมล | ชื่อ | เมือง | สถานะ | รหัสไปรษณีย์ |
1 | บ๊อบ@example.com | บ๊อบ | แคนซัสซิตี้ | มอ | 64030 |
2 | ซาร่า | ชิคาโก | อิลลินอยส์ | 60007 | |
3 | แซม | นิวยอร์ก | นิวยอร์ก | 10001 | |
4 | ริค | ลอสแองเจลิส | แคลิฟอร์เนีย | 90001 |
ทุกระเบียนในตารางนี้มีโครงสร้างเหมือนกัน และแต่ละคุณสมบัติมีประเภทเฉพาะ ตัวอย่างเช่น คอลัมน์ State จำกัดไว้ที่ตัวอักษรพิมพ์ใหญ่ 2 ตัว และคอลัมน์ ID และรหัสไปรษณีย์จำกัดไว้ที่จำนวนเต็ม หากคุณพยายามแทรกระเบียนในฐานข้อมูลที่ไม่เหมาะสมกับโครงสร้างนี้ ระบบจะไม่อนุญาต และข้อผิดพลาดจะแสดงขึ้น
ข้อมูลขนาดใหญ่ที่มีโครงสร้างโดยทั่วไปจะเป็นข้อมูลเชิงสัมพันธ์ ซึ่งหมายความว่าเรคคอร์ดเช่นตารางผู้ใช้ด้านบนสามารถเชื่อมโยงกับเรคคอร์ดหรือเรคคอร์ดในตารางอื่นได้ สมมติว่าตารางผู้ใช้มีไว้สำหรับตะกร้าสินค้า และผู้ใช้แต่ละคนมีคำสั่งซื้อ
รหัส | User_ID | สิ่งของ | ทั้งหมด |
1 | 1 | ถ้วย ![]() | 2.00 น |
2 | 2 | ชาม | 4.00 น |
3 | 2 | จาน | 3.00 น |
4 | 4 | ช้อน | 1.00 น |
คุณสมบัติ User_ID ของตารางคำสั่งซื้อด้านบนเชื่อมโยงคำสั่งซื้อกับ ID ในตารางผู้ใช้ เราจะเห็นว่า Sara มี 2 ออเดอร์ และ Sam ยังไม่ได้สั่ง
โครงสร้างแบบสแตติกประเภทนี้ทำให้ข้อมูลสอดคล้องกันและป้อน สืบค้น และจัดระเบียบได้ง่าย ภาษาที่ใช้ในการสืบค้นตารางฐานข้อมูลเช่นนี้คือ SQL (Structured Query Language) เมื่อใช้ SQL นักพัฒนาสามารถเขียนแบบสอบถามที่รวมบันทึกในตารางฐานข้อมูลด้วยชุดค่าผสมที่ไม่มีที่สิ้นสุดตามความสัมพันธ์
ข้อเสียของข้อมูลที่มีโครงสร้างคือการอัพเดทโครงสร้างของตารางอาจเป็นกระบวนการที่ซับซ้อน ต้องใช้ความคิดมากมายในโครงสร้างตารางก่อนที่คุณจะเริ่มใช้ฐานข้อมูลด้วยซ้ำ ข้อมูลขนาดใหญ่ประเภทนี้ไม่ยืดหยุ่นเท่าข้อมูลกึ่งโครงสร้าง
2. ข้อมูลที่ไม่มีโครงสร้าง
จากการประมาณการบางอย่าง 80-90% ของข้อมูลไม่มีโครงสร้าง [ 1 ] แต่บิ๊กดาต้าที่ไม่มีโครงสร้างคืออะไร? ข้อมูลใดที่ไม่จัดอยู่ในอีก 2 หมวดหมู่ที่เหลือจะถือว่าไม่มีโครงสร้าง
ทุกสิ่งที่จัดเก็บแบบดิจิทัลคือข้อมูล ข้อมูลที่ไม่มีโครงสร้างประกอบด้วยข้อความ อีเมล วิดีโอ เสียง บันทึกเซิร์ฟเวอร์ เว็บเพจ และอื่นๆ ซึ่งแตกต่างจากข้อมูลที่มีโครงสร้างและกึ่งโครงสร้างที่สามารถสอบถามและค้นหาในลักษณะที่สอดคล้องกัน ข้อมูลที่ไม่มีโครงสร้างจะไม่เป็นไปตามแบบจำลองข้อมูลที่สอดคล้องกัน
ซึ่งหมายความว่า แทนที่จะใช้การสืบค้นเพื่อเปลี่ยนข้อมูลนี้เป็นข้อมูลที่เป็นประโยชน์ ต้องใช้กระบวนการที่ซับซ้อนมากขึ้น โดยขึ้นอยู่กับแหล่งข้อมูล นี่คือสิ่งที่แมชชีนเลิร์นนิง ปัญญาประดิษฐ์ การประมวลผลภาษาธรรมชาติ และการรู้จำอักขระด้วยแสง (OCR) จะมีประโยชน์
ตัวอย่างหนึ่งของข้อมูลที่ไม่มีโครงสร้างคือใบเสร็จรับเงินที่สแกนซึ่งเก็บไว้สำหรับรายงานค่าใช้จ่าย ในรูปแบบภาพดั้งเดิม ข้อมูลไร้ประโยชน์โดยพื้นฐานแล้ว ที่นี่ ซอฟต์แวร์ OCR สามารถเปลี่ยนรูปภาพให้เป็นข้อมูลที่มีโครงสร้างซึ่งสามารถแทรกลงในฐานข้อมูลได้
ข้อเสียของข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างคือการประมวลผลยาก และแหล่งข้อมูลแต่ละแห่งต้องการตัวประมวลผลแบบกำหนดเอง ข้อดีรวมถึงการมีอยู่ของข้อมูลที่ไม่มีโครงสร้างหลายประเภท เนื่องจากข้อมูลเชิงลึกที่รวบรวมจากข้อมูลนั้นมักไม่สามารถพบได้ในแหล่งข้อมูลอื่นใด
3. ข้อมูลกึ่งโครงสร้าง
ข้อมูลขนาดใหญ่กึ่งโครงสร้างจะเข้ากันได้ดีระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง แหล่งที่มาทั่วไปของข้อมูลกึ่งโครงสร้างมาจากฐานข้อมูล NoSQL ข้อมูลในฐานข้อมูล NoSQL ได้รับการจัดระเบียบ แต่ไม่สัมพันธ์กันและไม่เป็นไปตามสคีมาที่สอดคล้องกัน
ตัวอย่างเช่น บันทึกผู้ใช้ในฐานข้อมูล NoSQL อาจมีลักษณะดังนี้:
{ _id: ObjectId("5effaa5662679b5af2c57829"), อีเมล: "[email protected]", ชื่อ: "Sam", ที่อยู่: "101 Main Street" เมือง: "Independence", state: "Iowa" }
ที่นี่ ผู้ใช้เข้าถึงข้อมูลที่ต้องการโดยใช้คีย์ในบันทึก และแม้ว่าจะดูคล้ายกับระเบียนในตัวอย่างข้อมูลที่มีโครงสร้างด้านบน แต่ก็ไม่ได้อยู่ในรูปแบบตารางที่สอดคล้องกัน
แต่จะอยู่ในรูปแบบ JSON ซึ่งใช้ในการจัดเก็บและส่งข้อมูลวัตถุ แม้ว่าเรคคอร์ดนี้ในฐานข้อมูลอาจมีแอตทริบิวต์ชุดนี้ แต่ก็ไม่ได้หมายความว่าเรคคอร์ดที่เหลือจะมีโครงสร้างเหมือนกัน บันทึกถัดไปอาจไม่มีที่อยู่ แต่มีรหัสไปรษณีย์แทน
ข้อได้เปรียบของข้อมูลกึ่งโครงสร้างที่จัดเก็บไว้ในฐานข้อมูล NoSQL คือมีความยืดหยุ่นสูง หากคุณต้องการเพิ่มข้อมูลในเรกคอร์ด เพียงเพิ่มด้วยคีย์ใหม่ สิ่งนี้อาจเป็นข้อเสียหากคุณต้องการข้อมูลให้สอดคล้องกัน
แต่ข้อมูล NoSQL ไม่ใช่บิ๊กดาต้ากึ่งโครงสร้างประเภทเดียว XML และ YAML เป็นรูปแบบข้อมูลที่ยืดหยุ่นอีกสองรูปแบบที่แอปพลิเคชันใช้เพื่อถ่ายโอนและจัดเก็บข้อมูล อีเมลยังถือเป็นข้อมูลกึ่งโครงสร้างได้ เนื่องจากบางส่วนของอีเมลสามารถแยกวิเคราะห์ได้อย่างสม่ำเสมอ เช่น ที่อยู่อีเมล เวลาที่ส่ง และที่อยู่ IP ในขณะที่เนื้อหาเป็นข้อมูลที่ไม่มีโครงสร้าง
การเปรียบเทียบข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้าง
ตารางนี้แสดงให้เห็นความแตกต่างระหว่างข้อมูลขนาดใหญ่ทั้งสามประเภทนี้ได้ดีขึ้น:
มีโครงสร้าง | กึ่งโครงสร้าง | ไม่มีโครงสร้าง | |
รูปแบบ | ข้อมูลทั่วไปส่วนใหญ่มาจากฐานข้อมูลเชิงสัมพันธ์ซึ่งข้อมูลถูกจัดเรียงในตารางที่มีโครงสร้างและมีประเภทเฉพาะ เช่น จำนวนเต็ม จำนวนลอย และข้อความ | ข้อมูลทั่วไปส่วนใหญ่มาจากฐานข้อมูล NoSQL และถ่ายโอนในภาษาการทำให้เป็นอันดับข้อมูล เช่น JSON, XML หรือ YAML | ข้อมูลที่ไม่มีโครงสร้างไม่เป็นไปตามสคีมาใดๆ และสามารถอยู่ในรูปของไฟล์บันทึก ข้อความดิบ รูปภาพ วิดีโอ และอื่นๆ |
กำลังสอบถาม | สามารถสอบถามได้อย่างรวดเร็วด้วย SQL ในรูปแบบที่มีโครงสร้างและสอดคล้องกัน | สามารถสืบค้นข้อมูลนี้ได้ แต่เนื่องจากลักษณะกึ่งโครงสร้าง ข้อมูลอาจไม่สอดคล้องกัน | ข้อมูลดิบต้องแยกวิเคราะห์และประมวลผลด้วยรหัสที่กำหนดเองในหลายกรณี |
ธุรกรรม | ฐานข้อมูลสนับสนุนการทำธุรกรรมเพื่อให้แน่ใจว่าข้อมูลที่อ้างอิงได้รับการปรับปรุง | ธุรกรรมได้รับการสนับสนุนบางส่วนในฐานข้อมูล NoSQL | ไม่สามารถทำธุรกรรมกับข้อมูลที่ไม่มีโครงสร้างได้ |
ความยืดหยุ่น | ชุดข้อมูลที่มีโครงสร้างมีกระบวนการอัปเดตที่ซับซ้อนและไม่ยืดหยุ่นมากนัก | ฐานข้อมูล NoSQL มีความยืดหยุ่นเนื่องจากสคีมาข้อมูลสามารถอัปเดตได้แบบไดนามิก | ข้อมูลที่ไม่มีโครงสร้างมีความยืดหยุ่นมากที่สุด แต่ก็ยากที่สุดในการประมวลผลเช่นกัน |
ประเมินแหล่งข้อมูลของคุณเพื่อเริ่มต้นใช้งานข้อมูลขนาดใหญ่
ขั้นตอนแรกที่ดีในโครงการบิ๊กดาต้าคือการรวบรวมแหล่งข้อมูลทั้งหมดที่มีให้คุณและธุรกิจของคุณ และจัดหมวดหมู่ตามประเภท สิ่งนี้ทำให้คุณสามารถเริ่มประมวลผลและรวบรวมข้อมูลเพื่อให้ข้อมูลเชิงลึกที่เป็นประโยชน์
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลขนาดใหญ่และบทบาทของข้อมูลในธุรกิจสมัยใหม่ โปรดดูแหล่งข้อมูลเหล่านี้:
Big Data คืออะไร และสร้างได้อย่างไร?
วิธีสร้างกลยุทธ์ข่าวกรองธุรกิจใหม่ของคุณ