Bug pada Intel Gigabit Ethernet e1000e

Figure 1. Server utama komputer cluster

Bug ini sepertinya sudah cukup lama dan setelah baca-baca di forum hingga GNU/Linux Ubuntu versi 18.04 pun sepertinya belum ada perbaikan. Hal ini dialami ketika salah satu komputer cluster yang digunakan untuk komputasi mengalami putus secara tiba-tiba saat sedang dilakukan konfigurasi dari jarak jauh.


Tadinya sudah sempat terasa ada yang tidak beres dengan jumbo frame kok agak tersendat-sendat. Setelah dicek lebih lanjut dan dipakai lebih lama terjadi hang.

Figure 2. Ethernet hang

Intel Gigabit dengan driver e1000e mengalami hang dan muncul pesan error yang tidak ada habisnya kecuali dengan dilakukan reboot server. Hal ini sangat merepotkan jika ternyata sedang ada proses komputasi besar maka semua proses koneksi akan putus kecuali yang tidak membutuhkan koneksi internet.

Hasil diskusi di beberapa forum menyebutkan harus dimatikan Active-State Power Management-nya yang ada di BIOS tapi tetap nihil dan kejadian masih sama. Dengan menonaktifkan Active-State Power sebenarnya ada kerugian karena penggunaan listrik akan jauh lebih besar. Tapi itu bukan menjadi isu utama jika kita listriknya gratis :p.

Ada cara lain yang disarankan dengan mematikan GRO (Generic Receive Offload), GSO (Generic Segmentation Offload), dan TSO (TCP Segmentation Offload) pada ethernet card dengan cara sebagai berikut.

$ sudo ethtool -K gso off tso off gro off

Tentu saja dengan menonaktifkan ketiga fungsi ini akan menyebabkan penurunan kecepatan pada ethernet card yang kita miliki. Namun tetap saja gagal dan ethernet kembali hang. Saya sangat berharap tidak perlu sampai mengganti sistem operasi dari GNU/Linux Ubuntu ke GNU/Linux lainnya. Kekhawatiran ini cukup beralasan mengingat untuk konfigurasi clustering ini cukup merepotkan (alhamdulillah ada Ansible).

Solusi lain adalah dengan update driver dari ethernet cardnya. Okay no problem, tidak ada masalah. Jaman GNU/Linux Slackware paling awal sudah pernah kompilasi kernel untuk mengaktifkan driver ethernet card RTL8192 dan sistem berkas reiserfs. Sehingga hal ini tidak menjadi masalah berarti. Untuk update bisa cek driver terbaru di Download Center milik Intel. Ingat dibaca baik-baik perintahnya. Setelah kompilasi driver dari source dan modprobe kernel module juga masih tetap sama.

Akhirnya solusi lain yang tercepat adalah beli ethernet card baru jika semua cara diatas tidak bisa dilakukan. Kalau mau repot silakan ganti sistem operasi anda ke GNU/Linux Centos dan turunannya. Saat ini dengan ethernet card terbaru koneksi berjalan lancar. Semoga sampai seterusnya.

andrey