3. Preprocessing Microarrays Data

Refinanda Nur Isfahani
4 min readMar 6, 2020

--

Helloo, sekarang saya ingin menyampaikaan langkah selanjutnya dari tulisan saya sebelumnya mengenai 2. Read Microarrays data, yaitu tahap preprocessing microarrays data , selamat membaca dan semoga bermanfaat :) …

What is Preprocessing ?

Preprocessing adalah salah satu langkah dalam data mining, yang digunakan untuk memperbaiki data untuk medapatkan hasil yang lebih baik. Preprocessing pada Bioinformatika adalah proses yang dilakukan untuk membuang efek non biologis pada data yang berguna untuk memberikan hasil lebih baik (Serin, 2011). Karena data microarrays berbentuk chip atau slide yang mempunyai nilai intensitas untuk masing-masing sampel sehingga perlu dilakukan perlakuan tertentu untuk menghasilkan nilai ekspresi gen.

Pic 1. Microarray, Sumber : https://www.oceanridgebio.com/affymetrix_genechip

Pada chip microarrays mempunyai tingkatan intensitas tertentu dari setiap titik pada array dalam chip, dimana setiap gen akan disajikan beberapa bagian DNA (Probe) pendek yang diletakkan pada lokasi tertentu (bintik-bintik) dan kumpulan dari probe tersebut disebut Probe set seperti pada Pic 1.

Gambar tersebut merupakan data mentah microarray, untuk mendapatkan tingkat ekspresi data gambar tersebut dilakukan analisis dengan cara setiap titik pada array akan diidentifikasi, diukur intensitasnya, dan kemudian dibandingkan dengan latar belakangnya, hasil dari analisis tersebut akan berbentuk matrix gene expression (Brazma, et al., 2001).

Pic 2. Matrix Gene Expression

Terdapat tiga langkah yang harus dilakukan dalam preprocessing tersebut :

1. Background correction adalah metode untuk menghilangkan background noise, menyesuaikan cross hybridization yang merupakan pengikat dari DNA non spesifik yang melekat pada array.

2. Normalization adalah suatu proses yang digunakan untuk menghilangkan variansi non biologis yang tidak diinginkan dan mungkin ada pada microarray.

3. Summarization adalah proses penggabungan beberapa intensitas probe menjadi probe set yang nantinya akan menghasilkan nilai ekspresi gen.

Pic 3. Tahap Preprocessing

Langkah preprocessing dapat dengan mudah dilakukan menggunakan bantuan packages AffyPLM dari Bioconductor dengan perintah Threestep, data yang digunakan untuk perintah Threestep adalah data yang berbentuk affybatch. Saya menggunakan default dari R Studio untuk pemilihan metode dari tiap langkah preprocessing, karena pemilihan metode terbaik pada tahap preprocessing, untuk background correction menggunakan RMA2, Normalization menggunakan quatile, dan Summarization menggunakan median polish.

Mengguakan perintah seperti berikut untuk melakukan proses preprocessing dengan menggunkana perintah threestep :

library(affyPLM)
dchip4 <- threestep(affy.data)

Karena data hasil preprocessing masih berbentuk expression set, maka harus dirubah kedalam bentuk matrix atau data frame sebelum memasuki tahap filtering dengan menggunakan perintah exprs seperti ini :

# exprs digunakan untuk merubah data affybatch menjadi data matrix/data frame
edchip4 <-exprs(dchip4)

Output yang dihasilkan dari preprocessing seperti berikut :

Pic 4. Hasil Preprocessing

Untuk melihat gambaran data hasil preprocessing dapat dilihat dengan menampilkan boxplot dari data sebelum dan setelah melalui preprocessing dengan menggunakan perintah :

# set parameters and draw the plot sebelum preprocessing
dev.new(width=2+dim(gset)[[2]]/5, height=6)
par(mar=c(2+round(max(nchar(sampleNames(gset)))/2),4,2,1))
title <- paste ("GSE16515", '/', 'GPL570', " selected samples", sep ='')
boxplot(affy.data, boxwex=0.7, notch=T, main=title, outline=FALSE, las=3)
# set parameters and draw the plot setelah preprocessing
dev.new(width=2+dim(gset)[[2]]/5, height=6)
par(mar=c(2+round(max(nchar(sampleNames(gset)))/2),4,2,1))
title <- paste ("GSE16515", '/', 'GPL570', " selected samples", sep ='')
boxplot(edchip4, boxwex=0.7, notch=T, main=title, outline=FALSE, las=3)
Pic 5. Persebaran data sebelum preprocessing
Pic 6. Persebaran data setelah preprocessing

Dapat dilihat perbedaan nilai pada data sebelum dan setelah melalui proses preprocessing, yang sangat kontras terlihat perbedaannya adalah nilai median pada data sebelum dan setelah preprocessing, setelah melalui tiga tahapan preprocessing mempunyai nilai yang sudah diperbaiki karena faktor non biologis, background noise dan variansi non biologis yang tidak diinginkan telah dihilangkan, penyesuaian cross hibdridization, dan penggabungan intensitas probe menjadi probe set yang terdapat dalam chip microarrays menghasilkan nilai ekspresi gen.

Bagaimana, sudah mulai paham cara preprocessing microarray data ? silahkan untuk di ikuti langkahnya dan dieksplore lebih dalam yaa, sekian dulu untuk materinya, selanjutnya akan membahas tentang Filtering…

Thanks for reading about Preprocessing Microarrays data, hopefully this article can help you, see you in the next article …

--

--