กระบวนการในการแปลงและย้ายข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่งในระบบคลังข้อมูล
ซึ่งประกอบด้วยส่วนประกอบที่สำคัญ 2 ส่วน คือ (กิตติพงษ์ กลมกล่อม. 2546)
6.1 การได้มาซึ่งข้อมูล
(Data Acquisition) ทำหน้าที่ในการรับข้อมูลและตรวจสอบความถูกต้องของข้อมูลในเบื้องต้น
เพื่อให้พร้อมสำหรับการนำไปใช้ต่อไปใน พื้นที่เตรียมข้อมูล
ซึ่งต้องทำการตรวจสอบสิทธิของผู้ส่งข้อมูล
ผู้ส่งข้อมูลต้องแสดงตนก่อนการส่งข้อมูลทุกครั้ง วิธีการแสดงตนเช่น การบันทึกเข้า
โดยจะปฏิเสธการรับข้อมูลเมื่อข้อมูลถูกส่งมาจากผู้ไม่มีสิทธิ ในกรณีที่ผู้ส่งมีสิทธิ
ระบบจะทำการตรวจสอบข้อมูลที่ได้รับมาว่ามีสิ่งแปลกปลอมหรือไม่
หากมีทำการกำจัดข้อมูลดังกล่าว
และแจ้งสิ่งผิดปกติที่พบให้ผู้ส่งตรวจสอบแก้ไขข้อผิดพลาดและส่งข้อมูลกลับมาใหม่
ถ้าข้อมูลไม่มีสิ่งผิดปกติ ระบบจะทำการตรวจสอบความถูกต้องของข้อมูล
ทั้งความถูกต้องในแง่ข้อจำกัด เช่นข้อมูลอายุบุคคล ต้องเป็นจำนวนจริงบวกเท่านั้น
หรือ ความถูกต้องในแง่เนื้อหาของข้อมูล เช่น
คลังข้อมูลที่ทำการวิเคราะห์ยอดขายให้ภูมิภาคหนึ่ง
ไม่ควรมีข้อมูลของภูมิภาคอื่นด้วย
โดยถ้าข้อมูลผิดพลาดระบบจะแจ้งกลับผู้ส่งให้ส่งกลับมาใหม่ ถ้าข้อมูลถูกต้องแล้ว ระบบจะเริ่มกระบวนการโอนย้ายข้อมูล
6.2 พื้นที่เตรียมข้อมูล (Data
Staging Area) ทำหน้าที่ตรวจสอบและแปลงข้อมูลที่ผ่านเข้ามาจากระบบการได้มาซึ่งข้อมูล
เพื่อเตรียมพร้อมสำหรับการเข้าสู่คลังข้อมูล เป็นที่พักข้อมูลและทำหน้าที่สำรองข้อมูลชั่วคราวก่อนที่การโอนย้ายข้อมูลจะเสร็จสมบูรณ์
เพื่อที่เตรียมข้อมูล เป็นส่วนที่เข้าถึงคลังข้อมูลได้โดยตรง ดังนั้น
การตรวจสอบความถูกต้องของข้อมูล เป็นการตรวจสอบความถูกต้องของข้อมูลที่ได้รับมาจาก
พื้นที่เตรียมข้อมูล กับข้อมูลในคลังข้อมูล กระบวนการเคลื่อนย้ายข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่ง
เรียกว่า ETL
(Extraction, Transformation and Loading) ประกอบด้วยการดึงข้อมูลจากต้นทาง
(Extract) การแปลงข้อมูลจากโครงสร้างเดิมของต้นทาง
ให้อยูในรูปแบบโครงสร้างข้อมูลที่กำหนดไว้ที่ปลายทาง (Transform) และ การนำข้อมูลที่แปลงแล้วเก็บที่ปลายทาง (Load) ซึ่งการออกแบบ
โครงสร้างใน พื้นที่เตรียมข้อมูล มี 2 ทาง
ซึ่งจะส่งผลกระทบกับการทำงานของ ETL
1. ออกแบบโครงสร้างของข้อมูลของการได้มาซึ่งข้อมูลให้มีลักษณะเดียวกับ
โครงสร้างข้อมูลในพื้นที่เตรียมข้อมูล ทำให้กระบวนการ ETL ช่วงแรก
จาก การได้มาซึ่งข้อมูล ไปสู่ พื้นที่เตรียมข้อมูล ไม่ต้องทำขั้นตอน แปลง แต่ ETL
ช่วงที่ 2 คือ จาก พื้นที่เตรียมข้อมูล ไปสู่
คลังข้อมูล ต้องทำขั้นตอนการ แปลง ทำให้ระบบเสียเวลาในช่วงที่ 2 เหมาะกับกรณีที่ข้อมูลมีปริมาณมากและความถี่สูง แต่ไม่ซับซ้อน
เพราะระบบจะไม่เสียเวลาในการแปลงข้อมูลก่อนเข้าสู่ เพื่อที่เตรียมข้อมูล
และไม่เกิดปัญหาการรอการเข้ามาของข้อมูล ซึ่งอธิบายกระบวนการ ในการทำงาน
ได้ดังรูปที่
กระบวนการทำงานของ ETL เมื่อออกแบบโครงสร้างข้อมูลของ พื้นที่เตรียมข้อมูล ให้เหมือนกับ โครงสร้างของข้อมูลของการได้มาซึ่งข้อมูล |
2. ออกแบบโครงสร้างข้อมูลใน
พื้นที่เตรียมข้อมูล ให้เหมือนโครงสร้างข้อมูลของคลังข้อมูล ในทางกลับกัน
กระบวนการ ETL แรกต้องทำการ Transform ระบบจะเสียงเวลาในช่วงแรก
เหมาะกับการออกแบบระบบที่มีการตรวจสอบความถูกต้องของข้อมูลที่มีปริมาณมากและซับซ้อน
ทำให้ระบบต้องอ่านข้อมูลจาก คลังข้อมูลเป็นจำนวนมากซ้ำหลายครั้ง
เพราะเมื่อดึงข้อมูลจากคลังข้อมูลมาไว้ใน พื้นที่เตรียมข้อมูลแล้ว
ระบบไม่จำเป็นต้องเปลี่ยนรูปโครงสร้างของข้อมูลเพื่อนำมาตรวจสอบอีกครั้ง
ช่วยลดเวลาในการตรวจสอบได้ ซึ่งอธิบายกระบวนการ ในการทำงาน ได้ดังรูป
ไม่มีความคิดเห็น:
แสดงความคิดเห็น