ประเภทของข้อมูลขนาดใหญ่คืออะไร?

เผยแพร่แล้ว: 2022-11-24

การทำความเข้าใจประเภทของข้อมูลขนาดใหญ่สามารถเตรียมคุณให้พร้อมรับมือกับชุดข้อมูลขนาดใหญ่ได้ดีขึ้น

ความก้าวหน้ามากมายใน AI , การเรียนรู้ของเครื่อง และการวิเคราะห์ธุรกิจเป็นไปได้เนื่องจากข้อมูลขนาดใหญ่ ข้อมูลขับเคลื่อนอัลกอริทึมที่ทำให้รถยนต์ขับเคลื่อนได้เอง แนะนำภาพยนตร์เรื่องต่อไปที่เราควรดู และบอกผู้นำธุรกิจถึงวิธีเพิ่มรายได้

แต่ข้อมูลทั้งหมดไม่ได้ถูกสร้างขึ้นเหมือนกัน

ในการจำแนก จัดระเบียบ และวิเคราะห์ข้อมูลที่สร้างขึ้นโดยธุรกิจและลูกค้าอย่างมีประสิทธิภาพ นักวิเคราะห์ธุรกิจหรือนักวิทยาศาสตร์ข้อมูลจำเป็นต้องรู้ว่าพวกเขากำลังทำงานกับข้อมูลประเภทใด

/ ข้อมูลขนาดใหญ่คืออะไร?

ข้อมูลขนาดใหญ่หมายถึงข้อมูลที่มีปริมาณมาก ความเร็วสูง หรือมีความหลากหลายสูงซึ่งต้องการการประมวลผลและการวิเคราะห์ที่ซับซ้อน ข้อมูลเพียงอย่างเดียวไม่เป็นประโยชน์ การวิเคราะห์ข้อมูลนั้นเป็นกุญแจสำคัญในการปรับปรุงกระบวนการทางธุรกิจ ธุรกิจต่างๆ ใช้เทคนิคหลายอย่างในการวิเคราะห์ข้อมูลขนาดใหญ่ เช่น การทำเหมืองข้อมูล ซึ่งเน้นรูปแบบในข้อมูล ตัวอย่างเช่น บริษัทต่างๆ สามารถขุดข้อมูลเพื่อเรียนรู้ว่าข้อเสนอการขายใดที่จะดึงดูดผู้บริโภคโดยเฉพาะ เมื่อบริษัทต่างๆ จัดการกับข้อมูลขนาดใหญ่อย่างถูกต้อง จะช่วยให้ตัดสินใจได้ดีขึ้นและช่วยให้พวกเขามอบบริการและผลิตภัณฑ์ที่ดีขึ้นแก่ลูกค้าได้ดีขึ้น

มาดูลักษณะและประเภทหลักของข้อมูลขนาดใหญ่กัน

ลักษณะข้อมูลขนาดใหญ่: The 5 Vs

แม้ว่าข้อมูลขนาดใหญ่จะเป็นคำทั่วไปที่ใช้กับข้อมูลหลายประเภท แต่โดยทั่วไปแล้วจะมีลักษณะห้าประการที่ใช้ในการกำหนดข้อมูลขนาดใหญ่ (หรือที่เรียกว่า 5 Vs หรือคุณลักษณะของข้อมูลขนาดใหญ่)

1. ปริมาณ

ลักษณะนี้อยู่ในชื่อ: ข้อมูลขนาดใหญ่มีขนาดใหญ่ คำจำกัดความของคำว่า ใหญ่ นั้นสัมพันธ์กัน และเปลี่ยนแปลงขึ้นอยู่กับเทคโนโลยีที่มีอยู่ในขณะนั้น ตัวอย่างเช่น ฮาร์ดไดรฟ์ขนาด 3 กิกะไบต์เคยถือว่าใหญ่ แต่ปัจจุบันแล็ปท็อปที่มีพื้นที่เก็บข้อมูลขนาดเทราไบต์ถือเป็นอุปกรณ์มาตรฐาน

2. ความเร็ว

ข้อมูลขนาดใหญ่ถูกสร้างขึ้นอย่างรวดเร็ว เซ็นเซอร์บนอุปกรณ์ IoT ส่งข้อความหลายครั้งต่อวินาที การวิเคราะห์เว็บไซต์จะตรวจสอบทุกการเคลื่อนไหวของเมาส์ที่ผู้เข้าชมทำเพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมการท่องเว็บของพวกเขา แอปพลิเคชันที่ใช้ข้อมูลนี้มักจะต้องประมวลผลให้ใกล้เคียงกับเวลาจริงมากที่สุด

3. ความหลากหลาย

ความหลากหลายคือหัวข้อหลักของบทความนี้ (โปรดอ่านต่อไปเพื่ออ่านเพิ่มเติม!) ข้อมูลขนาดใหญ่มีความหลากหลายอย่างมาก ทุกองค์กรที่เก็บรวบรวมข้อมูลจากหลายแหล่งและหลายรูปแบบ ในการเปลี่ยนข้อมูลนี้ให้เป็นข้อมูลที่เป็นประโยชน์ จะต้องรวมข้อมูลจากแหล่งต่างๆ

4. ความจริงใจ

ความจริงเป็นลักษณะที่กำหนดคุณภาพของข้อมูล ข้อมูลที่เก็บรวบรวมไม่สมบูรณ์ทั้งหมด อาจไม่ถูกต้องหรือมีจุดข้อมูลที่เสียหาย ข้อมูลขนาดใหญ่ที่ยุ่งเหยิงอาจส่งผลเสียมากกว่าผลดี ข้อมูลอาจต้องถูกล้างหรือทิ้งเพื่อให้ข้อมูลเชิงลึกที่ถูกต้อง

5. คุณค่า

ธุรกิจที่มีข้อมูลจำนวนมากไม่ได้หมายความว่าข้อมูลทั้งหมดจะมีประโยชน์ ลักษณะเฉพาะอีกประการหนึ่งของข้อมูลขนาดใหญ่คือจะให้คุณค่าในรูปแบบของข้อมูลเชิงลึก

กำลังคิดที่จะจ้างบริษัทวิเคราะห์ข้อมูลเพื่อขอความช่วยเหลือเกี่ยวกับข้อมูลขนาดใหญ่อยู่ใช่ไหม เรียกดูรายชื่อบริษัทวิเคราะห์ข้อมูลชั้นนำของเรา และเรียนรู้เพิ่มเติมเกี่ยวกับบริการของพวกเขาในคู่มือการจ้างงานของ Capterra

ข้อมูลขนาดใหญ่ 3 ประเภทหลัก

ในขณะที่เราสามารถสร้างหมวดหมู่จำนวนไม่สิ้นสุดสำหรับข้อมูลขนาดใหญ่ประเภทต่างๆ ได้ การจัดเรียงข้อมูลขนาดใหญ่ออกเป็นสามประเภทหลักจะง่ายกว่ามาก: มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งมีโครงสร้าง

1. ข้อมูลที่มีโครงสร้าง

ข้อมูลขนาดใหญ่ที่มีโครงสร้างเป็นข้อมูลที่จัดเก็บไว้ในสคีมาคงที่ โดยทั่วไปหมายความว่ามันถูกจัดเก็บไว้ในระบบจัดการฐานข้อมูลเชิงสัมพันธ์หรือ RDBMS ข้อมูลนี้ถูกจัดเก็บไว้ในตารางที่แต่ละระเบียนมีชุดคุณสมบัติคงที่ และแต่ละคุณสมบัติมีประเภทข้อมูลคงที่

ตัวอย่างหนึ่งคือบันทึกผู้ใช้ในฐานข้อมูล:.

รหัส	อีเมล	ชื่อ	เมือง	สถานะ	รหัสไปรษณีย์
1	บ๊อบ@example.com	บ๊อบ	แคนซัสซิตี้	มอ	64030
2	[email protected]	ซาร่า	ชิคาโก	อิลลินอยส์	60007
3	[email protected]	แซม	นิวยอร์ก	นิวยอร์ก	10001
4	[email protected]	ริค	ลอสแองเจลิส	แคลิฟอร์เนีย	90001

ทุกระเบียนในตารางนี้มีโครงสร้างเหมือนกัน และแต่ละคุณสมบัติมีประเภทเฉพาะ ตัวอย่างเช่น คอลัมน์ State จำกัดไว้ที่ตัวอักษรพิมพ์ใหญ่ 2 ตัว และคอลัมน์ ID และรหัสไปรษณีย์จำกัดไว้ที่จำนวนเต็ม หากคุณพยายามแทรกระเบียนในฐานข้อมูลที่ไม่เหมาะสมกับโครงสร้างนี้ ระบบจะไม่อนุญาต และข้อผิดพลาดจะแสดงขึ้น

ข้อมูลขนาดใหญ่ที่มีโครงสร้างโดยทั่วไปจะเป็นข้อมูลเชิงสัมพันธ์ ซึ่งหมายความว่าเรคคอร์ดเช่นตารางผู้ใช้ด้านบนสามารถเชื่อมโยงกับเรคคอร์ดหรือเรคคอร์ดในตารางอื่นได้ สมมติว่าตารางผู้ใช้มีไว้สำหรับตะกร้าสินค้า และผู้ใช้แต่ละคนมีคำสั่งซื้อ

รหัส	User_ID	สิ่งของ	ทั้งหมด
1	1	ถ้วย	2.00 น
2	2	ชาม	4.00 น
3	2	จาน	3.00 น
4	4	ช้อน	1.00 น

คุณสมบัติ User_ID ของตารางคำสั่งซื้อด้านบนเชื่อมโยงคำสั่งซื้อกับ ID ในตารางผู้ใช้ เราจะเห็นว่า Sara มี 2 ออเดอร์ และ Sam ยังไม่ได้สั่ง

โครงสร้างแบบสแตติกประเภทนี้ทำให้ข้อมูลสอดคล้องกันและป้อน สืบค้น และจัดระเบียบได้ง่าย ภาษาที่ใช้ในการสืบค้นตารางฐานข้อมูลเช่นนี้คือ SQL (Structured Query Language) เมื่อใช้ SQL นักพัฒนาสามารถเขียนแบบสอบถามที่รวมบันทึกในตารางฐานข้อมูลด้วยชุดค่าผสมที่ไม่มีที่สิ้นสุดตามความสัมพันธ์

ข้อเสียของข้อมูลที่มีโครงสร้างคือการอัพเดทโครงสร้างของตารางอาจเป็นกระบวนการที่ซับซ้อน ต้องใช้ความคิดมากมายในโครงสร้างตารางก่อนที่คุณจะเริ่มใช้ฐานข้อมูลด้วยซ้ำ ข้อมูลขนาดใหญ่ประเภทนี้ไม่ยืดหยุ่นเท่าข้อมูลกึ่งโครงสร้าง

2. ข้อมูลที่ไม่มีโครงสร้าง

จากการประมาณการบางอย่าง 80-90% ของข้อมูลไม่มีโครงสร้าง ^{[ 1 ]} แต่บิ๊กดาต้าที่ไม่มีโครงสร้างคืออะไร? ข้อมูลใดที่ไม่จัดอยู่ในอีก 2 หมวดหมู่ที่เหลือจะถือว่าไม่มีโครงสร้าง

ทุกสิ่งที่จัดเก็บแบบดิจิทัลคือข้อมูล ข้อมูลที่ไม่มีโครงสร้างประกอบด้วยข้อความ อีเมล วิดีโอ เสียง บันทึกเซิร์ฟเวอร์ เว็บเพจ และอื่นๆ ซึ่งแตกต่างจากข้อมูลที่มีโครงสร้างและกึ่งโครงสร้างที่สามารถสอบถามและค้นหาในลักษณะที่สอดคล้องกัน ข้อมูลที่ไม่มีโครงสร้างจะไม่เป็นไปตามแบบจำลองข้อมูลที่สอดคล้องกัน

ซึ่งหมายความว่า แทนที่จะใช้การสืบค้นเพื่อเปลี่ยนข้อมูลนี้เป็นข้อมูลที่เป็นประโยชน์ ต้องใช้กระบวนการที่ซับซ้อนมากขึ้น โดยขึ้นอยู่กับแหล่งข้อมูล นี่คือสิ่งที่แมชชีนเลิร์นนิง ปัญญาประดิษฐ์ การประมวลผลภาษาธรรมชาติ และการรู้จำอักขระด้วยแสง (OCR) จะมีประโยชน์

ตัวอย่างหนึ่งของข้อมูลที่ไม่มีโครงสร้างคือใบเสร็จรับเงินที่สแกนซึ่งเก็บไว้สำหรับรายงานค่าใช้จ่าย ในรูปแบบภาพดั้งเดิม ข้อมูลไร้ประโยชน์โดยพื้นฐานแล้ว ที่นี่ ซอฟต์แวร์ OCR สามารถเปลี่ยนรูปภาพให้เป็นข้อมูลที่มีโครงสร้างซึ่งสามารถแทรกลงในฐานข้อมูลได้

ข้อเสียของข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างคือการประมวลผลยาก และแหล่งข้อมูลแต่ละแห่งต้องการตัวประมวลผลแบบกำหนดเอง ข้อดีรวมถึงการมีอยู่ของข้อมูลที่ไม่มีโครงสร้างหลายประเภท เนื่องจากข้อมูลเชิงลึกที่รวบรวมจากข้อมูลนั้นมักไม่สามารถพบได้ในแหล่งข้อมูลอื่นใด

3. ข้อมูลกึ่งโครงสร้าง

ข้อมูลขนาดใหญ่กึ่งโครงสร้างจะเข้ากันได้ดีระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง แหล่งที่มาทั่วไปของข้อมูลกึ่งโครงสร้างมาจากฐานข้อมูล NoSQL ข้อมูลในฐานข้อมูล NoSQL ได้รับการจัดระเบียบ แต่ไม่สัมพันธ์กันและไม่เป็นไปตามสคีมาที่สอดคล้องกัน

ตัวอย่างเช่น บันทึกผู้ใช้ในฐานข้อมูล NoSQL อาจมีลักษณะดังนี้:

{ _id: ObjectId("5effaa5662679b5af2c57829"), อีเมล: "[email protected]", ชื่อ: "Sam", ที่อยู่: "101 Main Street" เมือง: "Independence", state: "Iowa" }

ที่นี่ ผู้ใช้เข้าถึงข้อมูลที่ต้องการโดยใช้คีย์ในบันทึก และแม้ว่าจะดูคล้ายกับระเบียนในตัวอย่างข้อมูลที่มีโครงสร้างด้านบน แต่ก็ไม่ได้อยู่ในรูปแบบตารางที่สอดคล้องกัน

แต่จะอยู่ในรูปแบบ JSON ซึ่งใช้ในการจัดเก็บและส่งข้อมูลวัตถุ แม้ว่าเรคคอร์ดนี้ในฐานข้อมูลอาจมีแอตทริบิวต์ชุดนี้ แต่ก็ไม่ได้หมายความว่าเรคคอร์ดที่เหลือจะมีโครงสร้างเหมือนกัน บันทึกถัดไปอาจไม่มีที่อยู่ แต่มีรหัสไปรษณีย์แทน

ข้อได้เปรียบของข้อมูลกึ่งโครงสร้างที่จัดเก็บไว้ในฐานข้อมูล NoSQL คือมีความยืดหยุ่นสูง หากคุณต้องการเพิ่มข้อมูลในเรกคอร์ด เพียงเพิ่มด้วยคีย์ใหม่ สิ่งนี้อาจเป็นข้อเสียหากคุณต้องการข้อมูลให้สอดคล้องกัน

แต่ข้อมูล NoSQL ไม่ใช่บิ๊กดาต้ากึ่งโครงสร้างประเภทเดียว XML และ YAML เป็นรูปแบบข้อมูลที่ยืดหยุ่นอีกสองรูปแบบที่แอปพลิเคชันใช้เพื่อถ่ายโอนและจัดเก็บข้อมูล อีเมลยังถือเป็นข้อมูลกึ่งโครงสร้างได้ เนื่องจากบางส่วนของอีเมลสามารถแยกวิเคราะห์ได้อย่างสม่ำเสมอ เช่น ที่อยู่อีเมล เวลาที่ส่ง และที่อยู่ IP ในขณะที่เนื้อหาเป็นข้อมูลที่ไม่มีโครงสร้าง

การเปรียบเทียบข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้าง

ตารางนี้แสดงให้เห็นความแตกต่างระหว่างข้อมูลขนาดใหญ่ทั้งสามประเภทนี้ได้ดีขึ้น:

	มีโครงสร้าง	กึ่งโครงสร้าง	ไม่มีโครงสร้าง
รูปแบบ	ข้อมูลทั่วไปส่วนใหญ่มาจากฐานข้อมูลเชิงสัมพันธ์ซึ่งข้อมูลถูกจัดเรียงในตารางที่มีโครงสร้างและมีประเภทเฉพาะ เช่น จำนวนเต็ม จำนวนลอย และข้อความ	ข้อมูลทั่วไปส่วนใหญ่มาจากฐานข้อมูล NoSQL และถ่ายโอนในภาษาการทำให้เป็นอันดับข้อมูล เช่น JSON, XML หรือ YAML	ข้อมูลที่ไม่มีโครงสร้างไม่เป็นไปตามสคีมาใดๆ และสามารถอยู่ในรูปของไฟล์บันทึก ข้อความดิบ รูปภาพ วิดีโอ และอื่นๆ
กำลังสอบถาม	สามารถสอบถามได้อย่างรวดเร็วด้วย SQL ในรูปแบบที่มีโครงสร้างและสอดคล้องกัน	สามารถสืบค้นข้อมูลนี้ได้ แต่เนื่องจากลักษณะกึ่งโครงสร้าง ข้อมูลอาจไม่สอดคล้องกัน	ข้อมูลดิบต้องแยกวิเคราะห์และประมวลผลด้วยรหัสที่กำหนดเองในหลายกรณี
ธุรกรรม	ฐานข้อมูลสนับสนุนการทำธุรกรรมเพื่อให้แน่ใจว่าข้อมูลที่อ้างอิงได้รับการปรับปรุง	ธุรกรรมได้รับการสนับสนุนบางส่วนในฐานข้อมูล NoSQL	ไม่สามารถทำธุรกรรมกับข้อมูลที่ไม่มีโครงสร้างได้
ความยืดหยุ่น	ชุดข้อมูลที่มีโครงสร้างมีกระบวนการอัปเดตที่ซับซ้อนและไม่ยืดหยุ่นมากนัก	ฐานข้อมูล NoSQL มีความยืดหยุ่นเนื่องจากสคีมาข้อมูลสามารถอัปเดตได้แบบไดนามิก	ข้อมูลที่ไม่มีโครงสร้างมีความยืดหยุ่นมากที่สุด แต่ก็ยากที่สุดในการประมวลผลเช่นกัน

ประเมินแหล่งข้อมูลของคุณเพื่อเริ่มต้นใช้งานข้อมูลขนาดใหญ่

ขั้นตอนแรกที่ดีในโครงการบิ๊กดาต้าคือการรวบรวมแหล่งข้อมูลทั้งหมดที่มีให้คุณและธุรกิจของคุณ และจัดหมวดหมู่ตามประเภท สิ่งนี้ทำให้คุณสามารถเริ่มประมวลผลและรวบรวมข้อมูลเพื่อให้ข้อมูลเชิงลึกที่เป็นประโยชน์

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลขนาดใหญ่และบทบาทของข้อมูลในธุรกิจสมัยใหม่ โปรดดูแหล่งข้อมูลเหล่านี้:

Big Data คืออะไร และสร้างได้อย่างไร?
วิธีสร้างกลยุทธ์ข่าวกรองธุรกิจใหม่ของคุณ