Laporan Project Akhir Information Visualization

Katriel Larissa
12 min readJan 20, 2023

--

Analisis Udemy Online Course — Kelompok 6

2440026244 / RENDY ADIDARMA

2440014225 / KATRIEL LARISSA

2440015972 / ALEXANDER IMANUEL

2440013903 / FRANSISKUS DANIEL

2440023665 / NAOMI ANCELLA

TEMA PROJECT : Analisis Online Course Udemy dari Tahun 2011–2017

Project Objectives

Untuk objektif dari projek kami adalah pembuatan visualisasi dengan melihat dari sisi pandang yang dimiliki oleh orang-orang yang memiliki keingintahuan mengenai Udemy Online Course terutama orang-orang yang membutuhkan visualisasi untuk melakukan analisis mendalam terhadap data tersebut seperti employee yang bekerja untuk perkembangan Udemy sehingga kami membuat beberapa dashboard yang kami rasa dibutuhkan seperti dashboard penjualan, performa tiap subject, performa udemy dari waktu ke waktu, melihat user feedback, serta performa level tiap coursesnya. Pembuatan dari chart-chart dibuat seringan mungkin dan mudah untuk dilihat dengan data-data yang sudah terstruktur.

Project Circumstances

Stakeholders: Untuk pemegang kepentingan sendiri diambil dari beberapa orang yang mempunyai kebutuhan dan curiosity terhadap analisa dari data yang dilakukan. Melihat dari topik proyek kami maka orang-orang yang peduli terhadap performa-performa dari Udemy merupakan User atau Pengguna dari Udemy, Employee dari Udemy (Staff, Manager), Pemegang Saham Udemy, dan Petinggi Udemy yang menggunakan data untuk penilaian.

Audience: Dapat kami simpulkan bahwa reader akan mempunyai hubungan dengan Udemy : Online Course bisa jadi sebagai pekerja / employee atau pemegang kekuasaan. Pembaca atau reader dapat mempunyai pengetahuan maupun tidak akan data yang dipaparkan karena data bersifat umum dan sudah dipublikasikan secara luas, akan tetapi dianjurkan pembaca mempunyai hubungan dengan data tersebut sehingga pengalaman ketika dilakukan pengkajian akan visualisasi, visualisasi akan terasa lebih nyata untuk pembaca.

Constraints:

Pressures: Melihat dari data yang kami peroleh, Pembuatan project ini akan membutuhkan waktu sekitar sebulan. Hal ini dikarenakan data yang kita miliki cukup banyak. Tak hanya itu kita juga memerlukan waktu untuk memikirkan visualisasi apa saja yang dapat menunjukan performa udemy Online Course secara keseluruhan.

Rules:

  • Layout/Size Restriction:

Untuk Layout dan ukuran visualisasi kami, kami akan menggunakan Desktop Browser atau 1000px X 800px. Kami menggunakan ukuran ini karena nantinya visualisasi ini akan dipresentasikan, dan juga ukuran tersebut akan memudahkan audience dan stakeholders untuk melihat hasil visualisasi kami.

  • Style Guidelines

Untuk style, kami menggunakan color palette bernama Okabe & Ito seperti pada tabel dibawah.

Kami memilih color palette di atas karena komposisi warna yang digunakan dapat diterima dengan mudah oleh semua orang termasuk para penderita buta warna.

  • Functional Restrictions

Pada output dari proyek ini akan bersifat responsif untuk device berbasis general baik desktop maupun mobile. Pengembangan dashboard-dashboard akan dipantau secara menyeluruh untuk melihat limitasi yang dimiliki oleh graph atau filter pada proyek ini.

Consumption:

Frequency: Pembuatan desain visualisasi ini kami buat seefisien mungkin. Design graph yang kami buat dapat digunakan lagi dikemudian hari sesuai dengan berkembangnya data seiring berjalannya waktu. Agar design graph tetap relevan di kemudian hari, kami membuatnya cukup general seperti menganalisa performa subscriber udemy, menganalisa performa rating udemy, dan menganalisa user feedback dari udemy. Tentu dikemudian hari masalah atau analisis mengenai hal hal tersebut akan tetap dibutuhkan.

Setting: Hasil visualisasi kami akan sajikan secara remote menggunakan sebuah video. Kami juga menggunakan karakteristik the coffee shop dimana suasana lebih santai dan lebih bersahabat untuk audience yang masih belum memiliki pengetahuan mengenai data yang kita gunakan. Kami menggunakan karakteristik ini karena audience dari visualisasi kami tak hanya para stakeholders dari Udemy Online Course melainkan melibatkan user juga sebagai audience kami.

  1. Deliverables:

Quantity: Penyampaian dari visualisasi pada proyek ini akan menggunakan 5 dashboard dengan masing-masing dashboard mempunyai 3–4 grafik. Perkiraan dari grafik yang akan digunakan ada beberapa jenis berdasarkan dari data yang dimiliki seperti untuk data sequential kami dapat menggunakan bar chart, tree map, dan bubble chart. Untuk comparison antar data kami akan menggunakan bar chart, untuk melihat data yang bersifat qualitative kami akan menggunakan pie chart atau bar chart dengan kombinasi warna dari pallete yang telah kami buat. Terdapat pula beberapa filter untuk data yang kami buat sehingga penyampaian akan lebih interaktif dan pembaca dapat memahami grafik dengan lebih mudah.

Format: Format dari output visualisasi kami akan berbentuk digital dengan ukuran yang dapat disesuaikan antar device, format dapat di print dalam beberapa jenis kertas berbeda. Karena pada perancangan kami menggunakan Tableau sebagai sarana visualisasi maka kami akan mempunyai output berupa file workbook Tableau yang didalamnya akan terdapat beberapa dashboard yang dapat langsung digunakan ataupun dipindahkan ke dalam format lain seperti powerpoint dengan syarat filter belum tentu berlaku.

Resources:

Skills: Dalam mengerjakan project visualisasi ini, ada beberapa skill yang diperlukan seperti clean data untuk mengolah, merapikan data dan mengecek apabila ada data yang kosong atau invalid, dan pembuatan visualisasi itu sendiri, dimana kami mengubah data yang telah kami proses sebelumnya, menjadi sebuah tampilan graph visualisasi.

Technology: untuk teknologi yang kami gunakan dalam pembuatan visualisasi ini berupa tableau prep untuk melakukan cleaning data. Kami juga menggunakan tableau desktop untuk pembuatan visualisasi dari data yang telah kami proses.

Purpose Map

Dalam pengembangan purpose map kami, kami melakukan visualisasi dengan berfokus pada tujuan yang sudah kami tetapkan sebelumnya. Dengan melihat beberapa jenis graf kami menyimpulkan bahwa terdapat beberapa sektor yang berhubungan erat dengan tujuan kami yaitu Explanatory dengan memanfaatkan kejelasan dari label yang dimiliki untuk memperjelas data pada saat di present kepada pembaca sehingga dengan bermodalkan label maka pembaca dapat menangkap maksud dari grafik yang kami buat. Lalu karena kami akan melakukan present langsung kepada pembaca melalui video maka konsep Exhibitory dapat digunakan pada grafik kami yang didalamnya terdapat beberapa grafik yaitu bar chart, pie chart dan comparison bar chart pada bagian reading. Pada bagian tengah akan terdapat tree map, bar chart yang bersifat sequential dan bubble chart karena perubahan warna berdasarkan data sedikit mengarah ke arah feeling dan tidak terlalu jauh dari arah reading sehingga kami memutuskan meletakkan grafik-grafik ini di bagian tengah.

Working with data

Data Acquisition

Sumber data yang kami dapatkan merupakan set data yang dipublish secara online melalui website kaggle.com dengan judul Udemy Courses. Data yang kami gunakan akan berputar di sekitar sheet Entry Level Project yang merupakan gabungan / join dari tiap kategori lainnya sehingga kami dapat mengolah sumber data secara menyeluruh tanpa memodifikasi data dengan kompleks.

Data Examination, types of data

Pada tahap Examination, kami melakukan pemeriksaan terhadap data yang kami miliki. Dari hasil pemeriksaan, pada tabel entry level project sheet terdapat 3681 row dan 1 header. Kami mendapati bahwa masih ada beberapa data yang duplikat yakni 1 Course id dapat memiliki 2 rating yang berbeda. Setelah kami analisa, ternyata setiap data yang duplikat memiliki rating yang sama yakni 0.92. Pada tabel ini, field Course id bertipe data decimal yang berisi 6–7 angka, akan tetapi menurut kami tipe data Course id tidak seharusnya bertipe decimal karena tidak akan digunakan dalam perhitungan. Kami juga menemukan bahwa field Content duration masih dalam satuan jam yang dimana kami membutuhkan durasi dengan satuan menit dan juga bentuk desimal dari content duration yang kami dapatkan memiliki jumlah angka dibelakang koma yang terlalu banyak dan berbeda beda.

Data Transformation

Pada tahap Transformation, kami melakukan transformasi terhadap beberapa atribut yang kami dapatkan dari sumber data. Karena tabel yang kami dapatkan sudah di gabungkan dan sudah kami lakukan examination atau observasi terhadap dapat maka kami hanya perlu memodifikasi data ke arah yang kami perlukan. Seperti pada kasus course id yang duplicate tetapi memiliki dua rating yang berbeda, kami memutuskan untuk membuang data dengan rating 0.92 tiap kali ditemukan data duplicate karena angka 0.92 yang akan membuat data rating menjadi bias. Karena course id masih bertipe decimal maka kami memutuskan untuk mengubah tipe data course id ke dalam bentuk String. Kami juga memutuskan untuk menambahkan field baru untuk content duration dalam bentuk menit alih-alih mengubah isi dari content duration yang sudah ada karena kami merasa bahwa keutuhan data tetap harus dipertahankan. Selanjutnya kami melakukan clean pada data seperti memastikan data bersifat distinct, lalu kami mengubah bentuk data field subject dan level ke dalam bentuk uppercase karena data tersebut berbentuk qualitative dalam kategori.

Data Exploration

Pada tahap ini kami mencari potensi dan insight dari data yang kami miliki. Setelah melakukan eksplorasi, kami dapat memastikan bahwa data yang kami miliki sudah sesuai dengan permasalahan dan tujuan visualisasi yang kami miliki seperti performa penjualan, performa tiap subject, performa udemy dari waktu ke waktu, melihat user feedback, dan performa level tiap coursesnya.

Visualisasi

Dashboard 1

Pada dashboard 1, kami membahas mengenai sales performance dari coursesyang ada di Udemy selama tahun 2011–2017. Pada dashboard ini, ada 3 visualisasi/graph yang ditampilkan dengan menggunakan 3 tipe diagram yang berbeda, yaitu: treemap, bubble chart, dan pie chart.

Graph yang pertama pada dashboard ini adalah “Top 10 Courses with Biggest Contribution to Udemy’s Revenue”. Sesuai dengan judulnya, graph ini menunjukkan 10 courses di Udemy yang menyumbang revenue/pendapatan terbesar di Udemy. Graph ini dibuat dengan menggunakan treemap, karena dengan tipe graph tersebut kita dapat dengan mudah melihat kontributor terbesar pada revenue Udemy. Dari graph ini, kita bisa melihat bahwa course dengan judul “The Web Developer Bootcamp” merupakan course yang menghasilkan pendapatan paling tinggi bagi Udemy dengan revenue sebesar $24.316.800, diikuti dengan 9 courses lainnya yang juga menjadi salah satu kontributor penghasilan terbesar di Udemy.

Selain itu, kami juga membuat visualisasi dengan tipe diagram bubble chart dengan judul “Top 10 Most Subscribed Courses”. Pada graph ini, kita bisa melihat 10 courses di Udemy yang memiliki jumlah subscribers terbanyak di Udemy. Dengan menggunakan bubble chart, kita bisa dengan cepat membedakan courses mana yang memiliki jumlah subscribers terbesar hanya dengan melihat size serta warna dari bubble tersebut. Dari visualisasi ini, kita bisa melihat bahwa course dengan judul “Learn HTML5 Programming from Scratch” merupakan courses yang paling banyak diikuti di Udemy. Melalui kedua visualisasi yang telah dibahas, kita bisa melihat bahwa banyaknya jumlah subscriber tidak selalu menentukan besarnya kontribusi pada pendapatan Udemy. Meskipun course dengan judul Learn HTML5 Programming from Scratch” memiliki jumlah subscriber terbanyak, course tersebut bukan salah satu penyumbang revenue terbesar. Begitu juga dengan course penyumbang revenue terbesar, tidak berarti bahwa course tersebut memiliki jumlah subscriber paling banyak dibandingkan yang lainnya.

Visualisasi terakhir yang dibuat adalah “Total Revenue per Subject” dengan menggunakan pie chart. Disini tipe diagram pie chart digunakan karena kami ingin menunjukkan data revenue per subject sebagai persentase dari keseluruhannya. Dari graph ini, kita bisa mengetahui persentase revenue setiap subject dari keseluruhan revenue Udemy. Grafik ini juga berfungsi sebagai filter, dimana ketika kita mengklik salah satu subject, maka graph lainnya otomatis hanya akan menunjukkan courses pada subject yang dipilih.

Dashboard 2

Pada dashboard 2 ini kami melakukan visualisasi untuk melihat performa udemy dari sisi tiap subjectnya. Terdapat 3 graph pada dashboard ini yaitu “Best Rated Course per Subject” yang dimana membahas tentang course dengan rating paling tinggi untuk tiap subjectnya. Pada grafik tersebut dapat dilihat bahwa tiap subject course mempunyai course yang memiliki rating sempurna kecuali graphic design dengan tiap judul dari course mendapat label di dalam grafiknya. Selanjutnya kami juga membuat graph most subscribed course untuk tiap subjectnya dengan bar chart ke arah samping. Berkonsep sama dengan graph sebelumnya tetapi kali ini kami ingin melihat berdasarkan jumlah subscriber. Pada graph terakhir kami ingin melihat jumlah dari total subscriber untuk tiap subject dan melihat hubungannya dengan graph-graph sebelumnya, seperti kita dapat melihat bahwa terdapat hubungan antara total subscriber dengan most subscriber course untuk tiap subject karena sama-sama diungguli oleh subject web development yang berarti peminat dari subject ini sangat banyak dengan perbedaan yang cukup signifikan diantara subject lainnya.

Dashboard 3

Dashboard 3 membahas performa udemy dari tahun ke tahun. Semua grafik yang ada pada dashboard ini menggunakan line chart karena akan lebih mudah untuk menjelaskan data yang berhubungan dengan waktu menggunakan jenis chart ini. Pada graph pertama dengan judul “Performa Subscriber Udemy Dari Tahun 2011–2017” menunjukan perkembangan performa keseluruhan subject di udemy berdasarkan jumlah subscriber. Dari graph ini kita dapat melihat bahwa performa subscriber udemy mengalami peningkatan dari tahun 2011 dengan jumlah subscriber 119.028, tahun 2011 sebanyak 555.339 subscriber hingga puncaknya di tahun 2015 dengan jumlah subscriber sebesar 5.475.324. Akan tetapi memasuki tahun 2016 udemy mengalami penurunan jumlah subscriber menjadi 2.966.644 subscriber. Di tahun 2017 udemy juga mengalami penurunan jumlah subscriber yang cukup signifikan hingga tersisa 989.941 subscriber saja. Dari graph ini kita dapat menyimpulkan dari segi jumlah subscriber, Udemy memiliki performa yang cukup baik dari tahun 2011 hingga 2015. akan tetapi pada tahun 2016 hingga 2017 udemy mengalami penurunan performa jumlah subscriber.

Graph kedua dengan judul “Performa Rating Udemy dari tahun 2011–2017” membahas tentang performa average rating dari seluruh course yang ada di udemy dari tahun ke tahun. Graph ini menunjukan bahwa secara keseluruhan average rating course di udemy mengalami kenaikan dari tahun 2011 ke tahun 2017. Hal ini dapat dilihat pada tahun 2011, average rating keseluruhan course di udemy bernilai 0.4480 dan terus mengalami kenaikan rating hingga di tahun 2017 sebesar 0.6455. Dari grafik ini kita dapat menyimpulkan bahwa performa rating keseluruhan course di udemy mengalami kenaikan dari tahun 2011 hingga tahun 2017. Terdapat juga filter untuk menunjukan data sesuai dengan subject yang diinginkan.

Graph ketiga dengan judul “Perbandingan Performa Subscriber Per-subject Dari tahun 2011–2017” menunjukan performa subscriber dari tiap subject yang dilambangkan dengan warna yang berbeda. Business Finance dilambangkan dengan warna hijau, Graphic Design dilambangkan dengan warna pink, Musical Instruments dilambangkan dengan warna biru, dan web development dilambangkan dengan warna orange. Dari grafik ini didapati bahwa dari tahun 2011 hingga tahun 2017, subject web development memiliki performa jumlah subscriber yang paling baik diantara subject lainnya. Grafik ini juga memiliki filter untuk menunjukan performa subject yang diinginkan.

Dashboard 4

Dashboard 4, pada dashboard ini kami membahas mengenai user feedback yang ada pada Udemy Online Course. Column yang merepresentasikan user feedback adalah review, rating, dan beberapa column lainnya. Pada grafiknya kami menggunakan beberapa tipe chart yaitu bubble chart, tree map, dan bar chart. Kami menggunakan bubble chart dan treemap karena informasi data bersifat sequential dan kami dapat melakukan highlight terhadap data dengan ukuran paling besar atau menonjol, dapat dilihat pada data tersebut rating sempurna didapatkan oleh course dengan judul the complete dan course tersebut merupakan course dengan jumlah subscriber terbanyak lalu pada tree map dapat dilihat bahwa jumlah review terbanyak untuk satu course merupakan 27445 review. Kami menggunakan bar chart yang kami rasa dibutuhkan untuk melakukan perbandingan karena terasa lebih familiar dan mudah untuk melihat perbandingan di tiap subjectnya. Bar yang terakhir kami gunakan untuk melihat top courses berdasarkan subscriber hanya untuk melihat hubungan yang didapat dari review dan jumlah subscriber yang dimiliki secara keseluruhan.

Dashboard 5

Untuk dashboard 5, kami menggunakan 2 tipe diagram, yaitu diagram batang dan diagram pie. Pada topik revenue yang didapat dari setiap pilihan level, kami menggunakan bar chart. Bar chart dipilih karena pada topik ini kami memperlihatkan hubungan antara pendapatan dari setiap level dan membandingkan urutannya berdasarkan dari yang tertinggi hingga pendapatan terendah. Dengan menggunakan bar chart, info yang ditampilkan lebih mudah dicerna, karena perbedaan tinggi diagramnya memudahkan kita mencerna urutannya. Dan dari visualisasi yang dibuat, kita dapat melihat bahwa revenue terbesar didapat dari “All Levels” sebesar 439.666.210 USD, kemudian “Beginner Level” sebesar 340.861.680 USD, “Intermediate Level” sebesar 92.536.295 USD, dan terakhir adalah “Expert Level” sebesar 8.610.755 USD.

Kemudian untuk topik jumlah course dari tiap level, diagram yang digunakan juga merupakan diagram batang, karena dengan demikian kita dapat dengan mudah melihat level mana yang memiliki jumlah course paling banyak. Dapat dilihat bahwa course dengan tingkat kesulitan “All Level” juga menempati urutan pertama dengan jumlah course sebanyak 1.925 course. Kemudian di peringkat kedua merupakan tingkat kesulitan “Beginner Level” dengan jumlah course sebanyak 1.268 course. Di tempat ketiga ada level “Intermediate Level” dengan jumlah course sebanyak 421. Dan terakhir ada “Expert Level” dengan 58 course.

Untuk topik durasi konten dari setiap levelnya, kami menggunakan pie chart. Pie chart digunakan karena kami membandingkan persentase kontribusi tiap level terhadap total durasi konten ajaran yang ada di udemy. Dengan menggunakan pie chart kita dapat menentukan level mana yang memiliki kontribusi durasi terbesar terhadap keseluruhan pengajaran yang ada di Udemy. Dari visualisasi yang sudah dibuat, dapat dilihat bahwa course dengan level “All Level” menempati tempat pertama sebagai penyumbang durasi terlama dari seluruh course udemy dengan 8.060 jam atau sebesar 53,57% dari keseluruhan course yang ada di Udemy. Kemudian disusul oleh “Beginner Level” dengan 5.233 jam atau sebesar 34,78%. Di urutan ketiga ada “Intermediate Level” dengan durasi 1.548 jam atau sebesar 10,29%. Dan di posisi terakhir ada “Expert Level” dengan durasi 206 jam atau sebesar 1,37%.

--

--