ความต่างระหว่าง data lakes และ data warehouses

นับตั้งแต่ที่ google บัญญัติศัพท์ว่า big data ขึ้นมาเมื่อหลายปีก่อนคราวนี้ก็มีศัพท์ใหม่ๆ ขึ้นมาโดยที่ขึ้นอยู่กับว่าเราให้ความสนใจไปที่ส่วนใด เรามาดูกันเรื่องความแตกต่างของ data lakes และ data warehouses กันว่าทั้งสองอย่างนี้ช่วยให้คุณจัดการกับข้อมูลได้อย่างไร

สำหรับผู้เริ่มต้นเรียนรู้ในสาย data โดยมีโซลูชั่นส์คือ big data ของข้อมูลลูกค้า เราสามารถโฟกัสให้มันแคบลงมาโดยใช้ชื่อว่า data lakes 

เรามาดูเรื่องของ Data Warehouses กันก่อน ความหมายของมันคือ การเก็บรวบรวมข้อมูลไว้ในส่วนกลาง (repositories) ซึ่งข้อมูลต้นทางจะเป็นข้อมูลแหล่งเดียวกันหรือแหล่งที่ต่างกันก็ได้ ซึ่งจะเก็บทั้งข้อมูลที่เป็นปัจจุบันและข้อมูลอดีตเพื่อสร้างเป็นรายงานให้หัวหน้าได้ดู เช่นการเปรียบเทียบประจำควอเตอร์,การเปรียบเทียบประจำปี

จุดมุ่งหมายของ data warehouses ก็เพื่อเก็บข้อมูลจำนวนมาก ซึ่งส่วนมากแล้วจะเป็นข้อมูลที่มีโครงสร้างมีแบบแผนแบบเดียวกัน, โดยข้อมูลยังไม่ถูกโหลดจาก data warehouse จนกว่าจะมีการเรียกใช้ 

Data lakes จริงๆแล้วความหมายของมันก็คือ data mart ที่เป็นซับเซตของ data warehouse ที่ผ่านกระบวนการ cleanse, package และเปลี่ยนแปลงให้เป็นโครงสร้างอย่างง่ายมาแล้ว ขณะที่ data lakes คล้ายกับส่วนของน้ำที่มีสถานะเป็นกลาง ข้อมูลจะไหลมาจาก stream (หรือระบบ source system) ผู้ใช้งานสามารถนำมันมาตรวจสอบโดยการสุ่มตัวอย่างมาจำนวนหนึ่งก็ได้ 

ซึ่งบางครั้งคำนิยามของ data lakes ยังดูไม่ชัดเจนเท่าไหร่ เรามาสรุปอีกครั้งว่า  data lakes มันคือข้อมูลทั้งหมดที่ถูกโหลดมาจากต้นทางโดยที่ไม่มีการเปลี่ยนรูปของข้อมูล, data จาก data lakes นี้ต้องมีการจัดรูปแบบให้เป็นหมวดหมู่ (schema) เพื่อประโยชน์ในการวิเคราะห์ข้อมูลต่อไป ซึ่งสิ่งต่างๆกันระหว่าง data lakes และ data warehouse ที่ชัดเจนที่สุดคือ 

Data Lakes ยังคงเก็บข้อมูลทั้งหมดไว้ แต่ data warehouses เก็บเฉพาะข้อมูลที่สัมพันธ์กัน (Relational database) ช่วงที่มีการเขียนโปรแกรมใน data warehouse มันจำเป็นต้องใช้เวลาในการวิเคราะห์ข้อมูลต้นทาง, เพื่อให้ตรงตาม business และการจัดโปรไฟล์ของข้อมูล โครงสร้างข้อมูลที่เป็นระเบียบจะนำเข้าสู่รายงานได้ ซึ่งกระบวนการตัดสินใจต้องดูข้อมูลที่อยู่ใน data warehouses หรือบางครั้งเกิดข้อมูลที่ไม่สามารถจัดกลุ่มได้มันก็ต้องนำออกจาก data warehouses เพื่อประหยัดพื้นที่ในการจัดเก็บ  

ในทางตรงกันข้าม data lakes เก็บข้อมูลทั้งหมด ไม่ใช่เพียงข้อมูลที่เป็นปัจจุบัน แต่ว่ามันเก็บ data ทั้งที่ใช้งานได้และใช้งานไม่ได้ เพราะว่า data ที่ไม่ถูกเรียกใช้งานในวันนี้อาจมีความสำคัญในวันข้างหน้าก็ได้ ดังนั้นเราอาจกล่าวได้ว่า data lakes จะใช้พื้นที่ในการจัดเก็บข้อมูลมากกว่า data warehouses ขนาดของ data lakes จะเก็บในหลัก petabytes และใช้ในงานที่เกี่ยวกับ big data โดยเฉพาะ

 

สนับสนุนโดย  RELX Alpha