Vector Database များ

MinSiThu
1 min readApr 9, 2023

--

AI နည်းပညာတွေတိုးတက်လာတော့ အခြားနည်းပညာနယ်ပယ်မှာလည်း AI နဲ့ဆက်စပ်နည်းပညာတွေက ပေါ်လာပေးရတယ်။

Vector Database တဲ့။
အရင် Database တွေနဲ့ မတူတဲ့ Database နည်းပညာတခုပေါ့။

Data Science ဘက်မှာဆိုရင် natural language ပဲလုပ်လုပ်၊ Image ပဲလုပ်လုပ် vector တွေအနေနဲ့ ကိုင်တွယ်ရတာဖြစ်တယ်။ tensor နဲ့ vector နဲ့ကသဘောတရားတူတူပဲ။ tensor က dimensional အရမ်းမြင့်သွားတဲ့ vector တွေကိုခေါ်တာ။ numpy တို့ tensorflow, pytorch တို့သုံးဖူးတဲ့သူဆိုရင်ကို သိတယ်။

Image data တွေကို နမူနာမြင်အောင်ပြောရရင်

ပုံမှန်က image တွေကို search engine သဘောမျိုးလုပ်ချင်တယ်ဆိုရင် image တွေကို aws S3 လိုမျိုး storage တွေပေါ်တင်ပြီးတော့ အဲ့ image ရဲ့ title, description လိုမျိုး metadata တွေကို database ထဲသိမ်းထားပြီးတော့ search လုပ်မယ်ဆိုရင် metadata တွေကနေပြန်ရှာပြီးတော့ သက်ဆိုင်ရာ image link ကိုပြန်ထုတ်ပေးတာမျိူးပေါ့။

Vector Database မှာက image တွေကိုပဲ database ထဲမှာ vector တွေအနေနဲ့ သိမ်းထားလိုက်တယ်။ ပြီးတော့ image မှာပါတဲ့ feature တွေနဲ့ machine learning algorithm တွေသုံးပြီး clustering လုပ်ထားလိုက်တယ်။

၂ခုလုံး Captain America လို့ စာရိုက်ထည့်ပြီး ရှာလိုက်ရင် ပုံထုတ်ပေးနိုင်တာခြင်းတော့အတူတူပဲ။ ဆိုလိုတာကတော့ CRUD operations (create, read, update, and delete) လုပ်နိုင်တာတူတူပဲဆိုပေမဲ့ vector search လို့ခေါ်တဲ့ similarity search မှာကွာသွားတယ်။ Vector Database မှာ Captain America ပုံတပုံထည့်ပြီး similar search လုပ်လိုက်ရင် Captain America ပါတဲ့အခြားပုံတွေကို တန်းပြီး result ထုတ်ပေးနိုင်တယ်။

နောက် Natural language တွေမှာဆိုရင် semantics search လုပ်လို့ရတာတွေကွာသွားတယ်။ ဒီလို feature တွေက built-in ပါလာတဲ့ database တွေပေါ့။

Shazam app လိုမျိုး similar song ရှာတဲ့ feature လိုမျိုးစဉ်းစားကြည့်ပေါ့။ Image, Video, Audio, JSON, Text တွေပေါ်မှာသုံးလို့ရတာမျိုးပေါ့။

အခုချိန်မှာ vector Database အနေနဲ့ pinecone, milvus, weaviate တို့လိုရွေးလို့ရနေပြီ။ Postgres မှာလည်း pgvector ဆိုပြီး extension ရှိနေပါပြီ။

Developer တွေ Data Science နယ်ပယ်ကလူတွေအနေနဲ့ စမ်းသပ်စောင့်ကြည့်ရမယ့်နည်းပညာတခုဖြစ်ပါတယ်။

ဓာတ်ပုံ - PineCone Website

--

--