Memahami fit_transform() pada Module CountVectorizer
Dalam hal ini kita akan belajar menggunakan contoh. Misal diberikan skrip seperti di bawah ini:
Dalam hal ini corpus merupakan list yang elemen-elemennya merupakan string. Kemudian di definisikan variabel vectorizer sebagai CountVectorizer(), dengan stop_words=’english’ berfungsi untuk menghilangkan kata semacam: i, you, the, a, this, is dan sejenisnya.
Ketika X dioperasikan maka menghasilkan keluaran seperti berikut:
Dalam hal ini variabel X adalah hasil penggunaan vectorizer dengan kemudian melakukan fit_transform pada corpus.
Ketika diprint vectorizer.get_feature_name() akan diperoleh:
[‘document’, ‘second’]
Di sini lah kemudian kita dapat membaca fit_transform di atas dengan lebih mudah. Dimana polanya seperti ini:
(<index baris ke-i>, <index kolom ke-j>) <jumlah>
dimana i adalah banyak baris dan j adalah banyak kolom.
Pada akhirnya tabel tersebut sama dengan ketika X dikonvert ke array.