横浜市のWebページがちょっとひどい
横浜市の保育園情報をスクレイピングするため眺めていたとき思ったこと。
まず、文字コードがShift-JISです。
UTF-8だと色々都合が良いのですが、未だにShift-JIS…。
それから、いわゆる「テーブルレイアウト」です。
CSSでレイアウトしていない、しかも<table>が入れ子になっているという…。
なんとかスクレイピングできましたが、文章構造、意味で情報を取得しづらいというのは、Googleのスパイダー、機械にとって、また、視覚障碍者などにとっても優しくなく、SEO的にも大きな損失だと思っております。
横浜市のページ、私が作り直したい。:-)