Memahami fit_transform() pada Module CountVectorizer

wowot hk
sesuapnasi
Published in
2 min readMay 19, 2019

Dalam hal ini kita akan belajar menggunakan contoh. Misal diberikan skrip seperti di bawah ini:

Dalam hal ini corpus merupakan list yang elemen-elemennya merupakan string. Kemudian di definisikan variabel vectorizer sebagai CountVectorizer(), dengan stop_words=’english’ berfungsi untuk menghilangkan kata semacam: i, you, the, a, this, is dan sejenisnya.

Ketika X dioperasikan maka menghasilkan keluaran seperti berikut:

Dalam hal ini variabel X adalah hasil penggunaan vectorizer dengan kemudian melakukan fit_transform pada corpus.

Ketika diprint vectorizer.get_feature_name() akan diperoleh:

[‘document’, ‘second’]

Di sini lah kemudian kita dapat membaca fit_transform di atas dengan lebih mudah. Dimana polanya seperti ini:

(<index baris ke-i>, <index kolom ke-j>) <jumlah>

dimana i adalah banyak baris dan j adalah banyak kolom.

Pada akhirnya tabel tersebut sama dengan ketika X dikonvert ke array.

--

--

wowot hk
sesuapnasi

Hello, I am a programmer. Let's collaborate.