1. Find and Input Microarrays Data

Refinanda Nur Isfahani
4 min readMar 5, 2020

--

Helloo, Alhamdulillah saya masih diberi kesempatan berbagi ilmu lagi☺, tulisan ini dan tulisan saya selanjutnya akan ditujukan untuk melanjutkan tulisan saya kemarin yang sudah memberikan langkah-langkah dalam mengolah data set Bioinformatika menggunakan teknologi Microarrays, sebelum membaca tulisan find and input microarray data, bagi yang belum membaca tulisan How to Process Microarrays Gene Expression Dataset From National Center of Biotechnology Information (NCBI) for Analysis, Bisa dibaca terlebih dahulu yaa supaya runtut untuk memahaminya, selamat membaca dan semoga dipermudah dalam segala hal, aamiin☺

How to get Data in NCBI for Microarrays Data set ?

“Gimana ya caranya mencari data set yang berteknologi Microarrays ? Apa di World Health Organization (WHO) ada ? “

Itu pernah saya pikirkan sebelum menjalin hubungan dengan Bioinformatika hehehe. Bukan disana ternyata, melainkan pada situs National Center for Biotechnology Information (NCBI).

Bagi yang baru mau mengenal Bioinformatika pasti bingung sama situs tersebut yaa ? Saya juga dulu sama kok, butuh waktu lebih untuk mengerti dan memahami situs itu. Situs tersebut menyediakan beragam sumber data Bioinformatika, Data set dapat di cari dan didownload dari https://www.ncbi.nlm.nih.gov/, tergantung kebutuhan peneliti ingin mencari data seperti apa, bisa dari menentukan metode dan mencari data yang sesuai dengan metode yang akan diterapkan, atau mencari data sesuai topik yang diinginkan dan metode akan menyesuaikan. Disini saya menggunakan kode akses GSE 16515 mengenai Tumor Pankreas yang bersumber dari : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515

Pic 1. Information about GSE16515

Pada seri GSE16515 terdapat beberapa informasi penting pada data, seperti Judul data set yang merupakan Data Ekspresi dari Mayo Clinic Tumor Pankres dan Normal Sampel, Organism atau objeknya adalah Homo Sapiens (Manusia), dan masih ada lainnya yang tidak ditampilkan pada Pic 1.

Pic 2. Download data

Data yang akan digunakan untuk dianalisis terdapat pada menu download GSE16515_RAW.tar yang mempunyai tipe file TAR (of CEL) seperti Pic 2, setelah mendowload raw data, taruh data di folder yang sudah ditentukan dan kemudian di ekstrak sehingga mempunyai tampilan seperti pada Pic 3, sebagai contoh saya menampilkan 5 sampel yang ada pada GSE tesebut.

Pic 3. Ekstrak GSE 16515_RAW

Here we go to Input Raw Data GSE 16515 with R Studio

Disini saya menggunakan bantuan software R Studio yaa, untuk yang belum menginstall R Studio silahkan bisa di install terlebih dahulu. Proses untuk menginput data dari NCBI salah satunya dengan menggunakan packages yang telah tersedia di Bioconductor, yang pertama digunakan adalah packages affy untuk membaca raw data GSE yang berformat .cell dengan menggunaka perintah pada R seprti berikut :

gse<- list.celfiles(“D:/Kuliah/GSE16515_RAW”, full.names=T)
affy.data = ReadAffy(filenames=gse)

Output yang didapatkan dari perintah tersebut seperti ini :

AffyBatch object

size of arrays=1164x1164 features (37 kb)

cdf=HG-U133_Plus_2 (54675 affyids)

number of samples=52

number of genes=54675

annotation=hgu133plus2

notes=

Diketahui inforamasi bahwa data berbentuk AffyBatch object dengan mempunyai dimensi 52 x 54675 berupa sampel sebanyak 52 dan jumlah gen sebanyak 54675, kode annotation hgu133plus2 adalah kode chip Affymetrix Human Genom U133 Plus 2 Array. Berdasarkan informasi yang diketahui, data tersebut masih berbentuk Affybatch dan sekarang saya akan mencoba untuk mengambil data matrix dari Data Affybatch tersebut dengan menggunakan perintah :

gset <- getGEO(GEO=”GSE16515", GSEMatrix =TRUE)
data.gse <- exprs(gset[[1]])

Output yang dihasilkan seprti ini :

Pic 4. Tabel matrix data

Untuk baris merupakan informasi gene dari sampel sebanyak 54675 gene yang dikode dengan 1007_s_at, 1053_at, hingga gene terkahir pada baris tersebut dan untuk kolom ialah sampel Homo Sapiens sebanyak 52 sampel yang telah dikodekan menjadi GSM414924, GSM414925 hingga seterusnya. Nilai yang terdapat pada tabel tersebut merupakan nilai dari chip microarrays yang telah dibaca tetapi belum melalui tahap preprocessing sehingga masih terdapat faktor non biologis selama pengambilan data pasien kanker pankreas.

Bagaimana, sudah mulai paham terkait teknologi Microarrays ? silahkan untuk di ikuti langkahnya dan dieksplore lebih dalam yaa, sekian dulu untuk materinya, selanjutnya akan membahas tentang Membaca Data Microarrays…

Thanks for reading about finding and inputting Microarrays data, hopefully this article can help you, see you in the next article …

--

--