Data Lakes คืออะไร ?

Data Lakes เป็นพื้นที่หรือศูนย์รวมเก็บข้อมูลที่ช่วยให้คุณจัดเก็บข้อมูลทั้งหมดที่มีโครงสร้างและไม่มีโครงสร้างได้ทุกขนาด คุณสามารถเก็บข้อมูลตามที่เป็นอยู่ได้โดยไม่จำเป็นต้องจัดโครงสร้างข้อมูลก่อนและเรียกใช้การวิเคราะห์แบบต่างๆจากแดชบอร์ด และการสร้างภาพข้อมูลเพื่อประมวลผลข้อมูลขนาดใหญ่ การวิเคราะห์แบบเรียลไทม์และการเรียนรู้ด้วยเครื่องจะช่วยในการตัดสินใจที่ดีขึ้น

ทำไมต้อง Data Lakes ?

องค์กรส่วนมากจะประสบความสำเร็จในการสร้างมูลค่าทางธุรกิจจากข้อมูล การสำรวจของอเบอร์ดีนพบว่าองค์กรที่ดำเนินการ Data Lake ดีกว่า บริษัท ที่คล้ายคลึงกัน 9% ในการเติบโตของรายได้จากสารอินทรีย์ ผู้นำเหล่านี้สามารถทำการวิเคราะห์แบบใหม่ เช่น การเรียนรู้ด้วยคอมพิวเตอร์ผ่านแหล่งข้อมูลใหม่ ๆ เช่น ไฟล์บันทึกข้อมูลจากการคลิกสตรีม สื่อสังคมออนไลน์ และอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ตที่เก็บอยู่ใน Data Lakes ช่วยให้พวกเขาสามารถระบุและใช้โอกาสในการเติบโตของธุรกิจได้เร็วขึ้นโดยการดึงดูดและรักษาลูกค้าเพิ่มประสิทธิภาพการทำงานในเชิงรุก มีการตัดสินใจอย่างชาญฉลาด

ความสำคัญของ Data Lakes
มีความสามารถในการควบคุมข้อมูลได้มากขึ้น จากแหล่งข้อมูลเพิ่มเติมในเวลาที่น้อยลงและเพิ่มขีดความสามารถให้กับผู้ใช้ในการทำงานร่วมกันและวิเคราะห์ข้อมูลในรูปแบบต่างๆ จะนำไปสู่การตัดสินใจที่ดีและรวดเร็วขึ้น ความสำคัญ Data Lakes ได้แก่

ปฏิสัมพันธ์กับลูกค้าที่ดีขึ้น
Data Lake สามารถรวมข้อมูลลูกค้าจากแพลตฟอร์ม CRM เข้ากับการวิเคราะห์สื่อสังคมออนไลน์และแพลตฟอร์มการตลาดที่มีประวัติการซื้อและตั๋วที่เกิดขึ้น เพื่อช่วยให้ธุรกิจสามารถเข้าใจกลุ่มลูกค้าที่ทำกำไรได้มากที่สุด สาเหตุของการที่ลูกค้ายกเลิกบริการ และการส่งเสริมสร้างความสัมพันธ์ที่ดีกับลูกค้า

ปรับปรุงทางเลือกด้านนวัตกรรม R & D
Data Lakes สามารถช่วยทีมงานวิจัยและพัฒนาของคุณ การทดสอบสมมติฐานและประเมินผล เช่น การเลือกวัสดุที่เหมาะสมในการออกแบบผลิตภัณฑ์ของคุณทำให้ได้ผลเร็วขึ้น ทำวิจัยเกี่ยวกับพันธุกรรมเพื่อนำไปสู่การใช้ยาที่มีประสิทธิภาพมากขึ้น หรือทำความเข้าใจกับลูกค้า จ่ายยาไปตามคุณลักษณะของลูกค้าที่แตกต่างกันไป

เพิ่มประสิทธิภาพการดำเนินงาน
Internet of Things (IoT) แนะนำวิธีการเพิ่มเติมในการรวบรวมข้อมูลเกี่ยวกับกระบวนการต่างๆ เช่นการผลิตโดยใช้ข้อมูลเรียลไทม์ที่มาจากอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ต Data Lakes ทำให้ง่ายต่อการจัดเก็บและเรียกใช้การวิเคราะห์ข้อมูล IoT เพื่อค้นหาวิธีการลดต้นทุนการดำเนินงานและเพิ่มคุณภาพ

องค์ประกอบสำคัญของ Data Lakes และโซลูชัน Analytics

เนื่องจากองค์กรต่างๆกำลังสร้าง Data Lakes และแพลตฟอร์ม Analytics พวกเขาต้องพิจารณาถึงขีดความสามารถที่สำคัญมากมายเช่น:

1. การเคลื่อนที่ของข้อมูล

Data Lakes ช่วยให้คุณสามารถนำเข้าข้อมูลจำนวนใด ๆ ที่สามารถนำมาใช้ได้ในแบบเรียลไทม์ ข้อมูลถูกเก็บรวบรวมจากหลายแหล่งและย้ายไปอยู่ใน Data Lakes ในรูปแบบเดิม กระบวนการนี้ช่วยให้คุณสามารถปรับขนาดข้อมูลได้ทุกขนาดพร้อมกับประหยัดเวลาในการกำหนดโครงสร้างข้อมูลสคีมาและการแปลงข้อมูล

2. จัดเก็บข้อมูลแค็ตตาล็อกอย่างปลอดภัย
Data Lakes ช่วยให้คุณสามารถจัดเก็บฐานข้อมูลการดำเนินงานข้อมูลเชิงสัมพันธ์และข้อมูลจากแอปพลิเคชันทางธุรกิจและแอปข้อมูลมือถือที่ไม่ใช่ข้อมูลอุปกรณ์ IoT และโซเชียลมีเดีย นอกจากนี้ยังช่วยให้คุณสามารถเข้าใจข้อมูลเยอะๆได้ ด้วยการรวบรวมข้อมูลการทำรายการและการจัดทำดัชนีข้อมูล สุดท้ายข้อมูลจะต้องได้รับการป้องกันเพื่อให้แน่ใจว่าข้อมูลของคุณได้รับการปกป้อง

3. Analytics
Data Lakes อนุญาตบทบาทต่างๆในองค์กรของคุณ เช่นนักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูลและนักวิเคราะห์ธุรกิจเพื่อเข้าถึงข้อมูลด้วยเครื่องมือและกรอบการวิเคราะห์แบบต่างๆ ซึ่งรวมถึงกรอบโอเพ่นซอร์สเช่น Apache Hadoop, Presto และ Apache Spark และการนำเสนอเชิงพาณิชย์จากคลังข้อมูลและผู้จัดจำหน่ายทางธุรกิจ Data Lakes ช่วยให้คุณสามารถเรียกใช้ Analytics โดยไม่ต้องย้ายข้อมูลไปยังระบบวิเคราะห์แยกต่างหาก

4. การเรียนรู้ด้วย Machine
Data Lakes จะช่วยให้องค์กรต่างๆสามารถสร้างข้อมูลเชิงลึกต่างๆได้เช่นการรายงานข้อมูลย้อนหลังและการเรียนรู้เกี่ยวกับเครื่องจักรที่สร้างแบบจำลองเพื่อคาดการณ์ผลลัพธ์ที่คาดหวัง และแนะนำการดำเนินการที่กำหนดเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

การปรับใช้ Data Lakes ในระบบคลาวด์

ข้อมูลเลคเป็นปริมาณงานที่เหมาะที่จะนำมาใช้งานในระบบคลาวด์เนื่องจากระบบคลาวด์ให้ประสิทธิภาพการทำงานที่ยืดหยุ่นความน่าเชื่อถือความพร้อมใช้งานชุดเครื่องมือวิเคราะห์แบบต่างๆและการประหยัดต่อขนาด การวิจัยของ ESG พบว่า 39% ของผู้ตอบแบบสอบถามพิจารณาว่า Cloud เป็นระบบหลักในการวิเคราะห์ข้อมูล 41% สำหรับคลังข้อมูลและ 43% สำหรับ Spark เหตุผลด้านบน ทำให้ลูกค้ารับรู้ว่าระบบคลาวด์เป็นประโยชน์สำหรับ Data Lakes ซึ่งมีความปลอดภัยที่ดีขึ้นใช้เวลาในการติดตั้งได้รวดเร็วขึ้น มีความพร้อมใช้งานที่ดีขึ้นการอัพเดทคุณลักษณะ / ฟังก์ชันการทำงานที่บ่อยขึ้นความยืดหยุ่นมากขึ้น ความครอบคลุมทางภูมิศาสตร์และค่าใช้จ่ายที่เชื่อมโยงกับการใช้งานจริง

ความท้าทายของ Data Lakes
หลักคือข้อมูลดิบจะถูกเก็บไว้โดยไม่มีการควบคุมดูแลเนื้อหา สำหรับ Data Lakesเพื่อให้สามารถใช้งานข้อมูลได้จำเป็นต้องมีกลไกที่กำหนดไว้ในแคตตาล็อกและข้อมูลที่ปลอดภัย หากไม่มีองค์ประกอบเหล่านี้จะไม่สามารถหาข้อมูลหรือเชื่อถือได้ซึ่งจะส่งผลให้เกิด “แพ็กเกจข้อมูล” การตอบสนองความต้องการของผู้ชมที่กว้างขึ้นต้องใช้ Data Lakes เพื่อการกำกับดูแลความสอดคล้องของความหมายและการควบคุมการเข้าถึง

(Source : Amazon)