Big Data — 3 — Big Data Analytics Lifecycle

3 min readMar 16, 2020

Business Case Evaluation
Data Identification
Data Acquisition & filtering
Data Extraction
Data Validation & Cleansing
Data Aggregation 8 Representation
Data Analysis
Data Visualization
Utilization of Analysis Results

2 — Data Identification

လုပ်မယ့် project အတွက် ဘာ datasets တွေ လိုမလဲ, အဲ့ကောင်တွေကို ဘယ်က ရနိုင်မလဲဆိုတာကို သတ်မှတ်တာ.

Datasets — datasets များလေ ရလဒ်ကောင်းလေ: data sources တွေကို အမျိုးစုံ အများကြီး သတ်မှတ်ထားမယ်ဆိုရင် analysis လုပ်တဲ့နေရာမှာ ပိုမှန်မယ်. patterns တွေ correlations တွေကို ပိုမှန်မှန်ကန်ကန် ထုတ်ဖော်နိုင်မယ်. များနိုင်သလောက် data sources တွေကို များများ သတ်မှတ်ရမယ်.

Sources — ဘယ်ကနေ ရှာကြမလဲ: လုပ်မယ့် project ရဲ့ business scope နဲ့ အဲ့ business မှာရှိနေတဲ့ problems တွေအပေါ်မူတည်ပြီး လိုအပ်တဲ့ datasets နဲ့ sources တွေက အဲ့ enterprise စီးပွားရေးလုပ်ငန်းထဲကပဲ ရနိုင်သလို အပြင်ကနေရှာရတာမျိုးလည်း ရှိနိုင်ပါတယ်. (internal & external)

_ internal datasets: မိမိလုပ်ငန်းတွင်းက ရနိုင်တဲ့ datasets တွေကို စုစည်းပြီး predefined datasets specification တွေနဲ့ ညှိမယ်. (ကောက်လိုက်တဲ့ datasets တွေက projects မှာတန်းသုံးလို့ မရနိုင်ဖို့များတယ်. ဒီအတွက် specification တွေနဲ့ အရင်ဆုံး ကိုက်ညီအောင် လုပ်ရမယ်.)

_ external datasets: ကိုယ်လိုအပ်တဲ့ data က မိမိလုပ်ငန်းပြင်ပက third-party data providers တွေ data markets တွေဆီမှာ ပိုက်ဆံနဲ့ ပေးဝယ်ရတာမျိုးလည်း ရှိနိုင်တယ်. publicly ပေးထားတဲ့ datasets တွေနဲ့တင် အလုပ်ဖြစ်နိုင်တာမျိုးလည်း ရှိနိုင်တယ်. အဲ့လို sources တွေကို သတ်မှတ်ထားရမယ်.

4 — Data Extraction

ပြဿနာ: analysis အတွက် သုံးမယ့် data တွေက တခါတလေမှာ big data solution တွေနဲ့ incompatible ဖြစ် အဆင်မပြေဖြစ်တတ်တယ်. အဲ့လို data တွေက external sources တွေကနေ လာတာများတယ်.

ဖြေရှင်းချက်: ဒါကြောင့် အဲ့လို data တွေထဲကနေမှ သုံးရမယ့် data တွေကို extract လုပ်ပြီး big data solutions တွေနဲ့ ကိုက်ညီအောင် compatible ဖြစ်အောင် transformation လုပ်ရတယ်. လုပ်ရတဲ့ extraction and transformation ပမာဏကတော့ ကိုယ်လုပ်နေတဲ့ analysis ပေါ်လည်း မူတည်ပြီး ကိုယ်သုံးနေတဲ့ big data solutions တွေရဲ့ လုပ်ဆောင်နိုင်စွမ်းပေါ်မှာလည်း မူတည်တယ်.

ဥပမာ: ကိုယ့် analysis က web server က ထုတ်တဲ့ server log files တွေကို ဖတ်ဖို့လိုတယ်. ကိုယ်သုံးနေတဲ့ big data solutions တွေကလည်း ဒီ log files တွေကို out of the box သူ့ဘာသာသူ ဝင်ဖတ်နိုင်တယ်ဆိုရင် ကိုယ်တွေအနေနဲ့ explicitly extraction and transformation လုပ်စရာ မလိုတော့ဘူး. text analysis အတွက်ဆိုလည်း ဒီလိုပါပဲ.

5 — Data Validation and Cleansing

Invalid data တွေက analysis ရဲ့ ရလဒ်တွေကို မှားစေပါတယ်. ဒါ့အပြင် သမားရိုးကျ enterprise data တွေနဲ့ မတူတဲ့ အချက်က Big data ရဲ့ data တွေက unstructure ဖြစ်နိုင်ပြီး ပထမအခြေအနေမှာ validate လည်း လုပ်မထားရပါဘူး. ဒီအချက်က big data မှာ data validation နဲ့ cleansing လုပ်ဖို့ လိုအပ်စေတာဖြစ်ပါတယ်. ဒါကြောင့် Data validation and cleansing လုပ်မယ်ဆိုရင် validation rules တွေ သတ်မှတ်ရပါမယ်.

Data Validation and Cleansing Rules:

တွေ့သမျှ invalid data တွေကို ဖယ်ပစ်ရမယ်.
third-party data sources တွေကနေ data တွေယူရရင် များသောအားဖြင့် data တွေက မလိုအပ်ဘဲ ပိုနေတတ်တယ်. ဒီကောင်တွေကလည်း invalid data တွေလိုပဲ analysis ရဲ့ ရလဒ်ကို မှားစေနိုင်ပြီး Big data solutions တွေက မလိုအပ်ဘဲ process လုပ်မိတဲ့အခါ processing time ပိုကြာစေတာမျိုးတွေ ဖြစ်နိုင်ပါတယ်. ဒီလို အပို data တွေဆီကနေတော့ အမြတ်ထုတ်နိုင်တာရှိတယ်. အချိတ်အဆက်ရှိတဲ့ datasets တွေမှာ missing values တွေရှိနေနိုင်တယ်. ဒါကြောင့် ခုန redundant data တွေကို explore လုပ် သုံးသပ်ပြီး ခုန missing values တွေနေရာမှာ ဖြည့်လိုက်လို့ ရပါတယ်.

offline analysis လုပ်တယ်ဆိုရင် offline ETL operation နဲ့ data validate and clean လုပ်လို့ရတယ်. real time analysis လုပ်တယ်ဆိုရင်တော့ in-momery system လိုတယ်.

7 — Data Analysis

ဒီအဆင့်မှာတော့ တကယ် data analysis စလုပ်ပြီ. analysis လုပ်တဲ့ နေရာမှာလည်း analysis type တစ်မျိုးတည်းကိုပဲ မသုံးဘူး. အမျိုးမျိုးသုံးပြီး လုပ်တယ်. analysis လုပ်တာက တစ်ခါပဲလည်း မဟုတ်ဘူး. pattern တွေ correlation တွေ မတွေ့ခင်ထိ interative လုပ်ပြီး လုပ်နေမှာ. ဒါကို exploratory approach လို့လည်း ခေါ်တယ်.

လိုအပ်တဲ့ analysis result အပေါ်မူတည်ပြီးတော့ လုပ်ရမယ့် အလုပ်က ရိုးရှင်းတာလည်းရှိသလို challenge များတာလည်း ဖြစ်နိုင်တယ်. ရိုးရှင်းတာဆိုရင် dataset ထဲက data လေးတွေထုတ် aggregation လေးလုပ် comparison လေးလုပ်ရင် ရနိုင်ပေမယ့် challenge ဖြစ်တဲ့ အပိုင်းကျရင်တော့ data mining techniques တွေ statistical analysis techniques တွေနဲ့ လုပ်ရတတ်တယ်.

data analysis ကို ၂ မျိုးခွဲလို့ရတယ်. Confimatory analysis နဲ့ Exploratory analysis.

Confimatory Analysis: (deductive approach)

Confimatory Analysis က deductive approach ဖြစ်တယ်. ပြဿနာရဲ့ အရင်းအမြစ်ကို ကြိုတင်ခန့်မှန်းပြီး assumptions တွေထုတ်တာ. ဒီအရင်းအမြစ်ကို hypothesis လို့ သုံးတယ်. ဒီ hypothesis ကို မှန်ကြောင်း or မှားကြောင်းပြဖို့ လုပ်တယ်.

Exploratory Analysis: (inductive approach)

Exploratory analysis က inductive approach ဖြစ်တယ်. Data mining techniques တွေ theory တွေနဲ့ လုပ်ရတယ်. Confimatory တုန်းကလို hypothesis တွေ, predetermined assumptions တွေ မထုတ်ဘူး. အဲ့အစား ပြဿနာရဲ့ အရင်းအမြစ်ကို နားလည်ဖို့ data ကို analysis လုပ်တာ.