วันพฤหัสบดีที่ 14 กรกฎาคม พ.ศ. 2559

กระบวนการแปลงข้อมูลเข้าสู่ระบบ

6.    กระบวนการแปลงข้อมูลเข้าสู่ระบบ
กระบวนการในการแปลงและย้ายข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่งในระบบคลังข้อมูล ซึ่งประกอบด้วยส่วนประกอบที่สำคัญ 2 ส่วน คือ (กิตติพงษ์ กลมกล่อม. 2546)

6.1  การได้มาซึ่งข้อมูล (Data Acquisition) ทำหน้าที่ในการรับข้อมูลและตรวจสอบความถูกต้องของข้อมูลในเบื้องต้น เพื่อให้พร้อมสำหรับการนำไปใช้ต่อไปใน พื้นที่เตรียมข้อมูล ซึ่งต้องทำการตรวจสอบสิทธิของผู้ส่งข้อมูล ผู้ส่งข้อมูลต้องแสดงตนก่อนการส่งข้อมูลทุกครั้ง วิธีการแสดงตนเช่น การบันทึกเข้า โดยจะปฏิเสธการรับข้อมูลเมื่อข้อมูลถูกส่งมาจากผู้ไม่มีสิทธิ ในกรณีที่ผู้ส่งมีสิทธิ ระบบจะทำการตรวจสอบข้อมูลที่ได้รับมาว่ามีสิ่งแปลกปลอมหรือไม่ หากมีทำการกำจัดข้อมูลดังกล่าว และแจ้งสิ่งผิดปกติที่พบให้ผู้ส่งตรวจสอบแก้ไขข้อผิดพลาดและส่งข้อมูลกลับมาใหม่ ถ้าข้อมูลไม่มีสิ่งผิดปกติ ระบบจะทำการตรวจสอบความถูกต้องของข้อมูล ทั้งความถูกต้องในแง่ข้อจำกัด เช่นข้อมูลอายุบุคคล ต้องเป็นจำนวนจริงบวกเท่านั้น หรือ ความถูกต้องในแง่เนื้อหาของข้อมูล เช่น คลังข้อมูลที่ทำการวิเคราะห์ยอดขายให้ภูมิภาคหนึ่ง ไม่ควรมีข้อมูลของภูมิภาคอื่นด้วย โดยถ้าข้อมูลผิดพลาดระบบจะแจ้งกลับผู้ส่งให้ส่งกลับมาใหม่ ถ้าข้อมูลถูกต้องแล้ว ระบบจะเริ่มกระบวนการโอนย้ายข้อมูล

6.2  พื้นที่เตรียมข้อมูล (Data Staging Area) ทำหน้าที่ตรวจสอบและแปลงข้อมูลที่ผ่านเข้ามาจากระบบการได้มาซึ่งข้อมูล เพื่อเตรียมพร้อมสำหรับการเข้าสู่คลังข้อมูล เป็นที่พักข้อมูลและทำหน้าที่สำรองข้อมูลชั่วคราวก่อนที่การโอนย้ายข้อมูลจะเสร็จสมบูรณ์ เพื่อที่เตรียมข้อมูล เป็นส่วนที่เข้าถึงคลังข้อมูลได้โดยตรง ดังนั้น การตรวจสอบความถูกต้องของข้อมูล เป็นการตรวจสอบความถูกต้องของข้อมูลที่ได้รับมาจาก พื้นที่เตรียมข้อมูล กับข้อมูลในคลังข้อมูล กระบวนการเคลื่อนย้ายข้อมูลจากที่หนึ่งไปยังอีกที่หนึ่ง เรียกว่า ETL (Extraction, Transformation and Loading) ประกอบด้วยการดึงข้อมูลจากต้นทาง (Extract) การแปลงข้อมูลจากโครงสร้างเดิมของต้นทาง ให้อยูในรูปแบบโครงสร้างข้อมูลที่กำหนดไว้ที่ปลายทาง (Transform) และ การนำข้อมูลที่แปลงแล้วเก็บที่ปลายทาง (Load) ซึ่งการออกแบบ โครงสร้างใน พื้นที่เตรียมข้อมูล มี 2 ทาง ซึ่งจะส่งผลกระทบกับการทำงานของ ETL 

        1.  ออกแบบโครงสร้างของข้อมูลของการได้มาซึ่งข้อมูลให้มีลักษณะเดียวกับ โครงสร้างข้อมูลในพื้นที่เตรียมข้อมูล ทำให้กระบวนการ ETL ช่วงแรก จาก การได้มาซึ่งข้อมูล ไปสู่ พื้นที่เตรียมข้อมูล ไม่ต้องทำขั้นตอน แปลง แต่ ETL ช่วงที่ 2 คือ จาก พื้นที่เตรียมข้อมูล ไปสู่ คลังข้อมูล ต้องทำขั้นตอนการ แปลง ทำให้ระบบเสียเวลาในช่วงที่ 2 เหมาะกับกรณีที่ข้อมูลมีปริมาณมากและความถี่สูง แต่ไม่ซับซ้อน เพราะระบบจะไม่เสียเวลาในการแปลงข้อมูลก่อนเข้าสู่ เพื่อที่เตรียมข้อมูล และไม่เกิดปัญหาการรอการเข้ามาของข้อมูล ซึ่งอธิบายกระบวนการ ในการทำงาน ได้ดังรูปที่

กระบวนการทำงานของ ETL เมื่อออกแบบโครงสร้างข้อมูลของ พื้นที่เตรียมข้อมูล ให้เหมือนกับ โครงสร้างของข้อมูลของการได้มาซึ่งข้อมูล
        2.  ออกแบบโครงสร้างข้อมูลใน พื้นที่เตรียมข้อมูล ให้เหมือนโครงสร้างข้อมูลของคลังข้อมูล ในทางกลับกัน กระบวนการ ETL แรกต้องทำการ Transform ระบบจะเสียงเวลาในช่วงแรก เหมาะกับการออกแบบระบบที่มีการตรวจสอบความถูกต้องของข้อมูลที่มีปริมาณมากและซับซ้อน ทำให้ระบบต้องอ่านข้อมูลจาก คลังข้อมูลเป็นจำนวนมากซ้ำหลายครั้ง เพราะเมื่อดึงข้อมูลจากคลังข้อมูลมาไว้ใน พื้นที่เตรียมข้อมูลแล้ว ระบบไม่จำเป็นต้องเปลี่ยนรูปโครงสร้างของข้อมูลเพื่อนำมาตรวจสอบอีกครั้ง ช่วยลดเวลาในการตรวจสอบได้ ซึ่งอธิบายกระบวนการ ในการทำงาน ได้ดังรูป


กระบวนการทำงานของ ETL เมื่อออกแบบโครงสร้างข้อมูลของ พื้นที่เตรียมข้อมูล ให้เหมือนกับโครงสร้างของข้อมูล ของคลังข้อมูล

ไม่มีความคิดเห็น:

แสดงความคิดเห็น