Web スクレイパー必携の一冊、ふたたび - 『増補改訂版 Python クローリング & スクレイピング』

Takahiro Ikeuchi

6 min readAug 8, 2019

この度縁あって『増補改訂版 Python クローリング & スクレイピング, 加藤耕太著, 2019年, 技術評論社』（以下、本書）を技術評論社よりご恵贈賜りました。

Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド

Amazonで加藤耕太のPythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド。アマゾンならポイント還元本が多数。加藤…

amzn.to

1万部を超える人気書籍となった『Python クローリング & スクレイピング』

“増補改訂版” と銘打つとおり、本書は 2016年12月に発売された書籍の改訂版（以下、第一版）にあたります。じつは第一版刊行のさいにもレビューを書かせていただいておりました。

悩める Web スクレイパーのための一冊 - 技術評論社『Python クローリング & スクレイピング』 - Witch on the Other Shore

このたび、縁あって『加藤耕太 (2016). Python クローリング & スクレイピングデータ収集・解析のための実践開発ガイド, 技術評論社』(以下、本書) を恵贈賜りました。…

iktakahiro.hatenablog.com

本書「増補改訂版に寄せて」によると、”短い期間で6回の増刷を重ね、累計発行部数は1万部を超え” たとのことで、今回の改訂版刊行はその実績をうけての刊行であることがうかがい知れます。

本書が扱うのは、Web スクレイピング・クローリングと呼ばれる技術です。本書はまず技術そのものの解説を行ってから、「Webスクレイピングを Python で実現するには」という手法の解説に取り組みます。全体の流れや各章ごとのトピックについては、拙著で恐縮ですが上述の第一版のレビュー記事をご覧下さい。

気になる増補トピック

さて、ここからは僕が気になった増補トピックをいくつか紹介します。いくつかをピックアップしたもので、ここにあげたものが差分の全てではないことにご留意ください。

Pyppeteer

本書では Single Page Application など、JavaScript 主体の Webサイトをスクレイピングするためのツールとしてお馴染みの Selenium を扱いますが、あらたに Pyppeteer の解説が追加されています（5章 6節）。

miyakogi/pyppeteer

Headless chrome/chromium automation library (unofficial port of puppeteer) - miyakogi/pyppeteer

github.com

Pyppeteer は Puppeteer の Python版で、操作対象ブラウザを Chrome に限定し、非同期処理を前提としたつくりになっているそうです。

第一版から本書まで、PhantomJS の開発が終了したり、Google Chrome のヘッドレスモードが stable になったりと色々ありましたね…。本書では最新のツール動向にあわせた内容に調整されています。

Elasticsearch

増補版では、全文検索システム Elasticsearch の紹介が追加されています。

Open Source Search & Analytics · Elasticsearch | Elastic

We're the creators of Elasticsearch, Kibana, Beats, and Logstash -- the Elastic Stack. Securely and reliably search…

www.elastic.co

Webスクレイピングのためのフレームワーク Scrapy を使って収集・蓄積したデータの活用例として、Elasticsearch を使った文書検索の例が紹介されています。本書で扱う範囲は限定的ですが、興味を惹かれた読者は Elasticsearch や全文検索エンジン、自然言語処理といった分野を深掘りすると良いでしょう。

PyQS （メッセージキューの利用）

本書第7章「クローラーの継続的な運用・管理」では、クローリングとスクレイピングの工程を疎結合にするためにメッセージキューの導入が提案されます。増補版では、Amazon Web Service の Amazon Simple Queue Service (SQS) を利用することを前提として、PyQS を活用するという解説にブラッシュアップされました。

spulec/PyQS

WARNING: This library is still in beta. It has a stable API and has been deployed in production, but we have not…

github.com

asyncio の活用（3.7版）

本書第7章では、asyncio を利用して非同期I/O を容易に実現し、クローリング効率を高める方法が解説されます。

asyncio - Asynchronous I/O - Python 3.7.4 documentation

asyncio is a library to write concurrent code using the async/await syntax. asyncio is used as a foundation for…

docs.python.org

asyncio のトピック自体は第一版でも取り扱われていました。第一版は Python 3.5 を対象としたコードが、本書では Python 3.7 対象に更新されています。具体的には、Python 3.7 で追加された asyncio.run() を利用しています。細かい点ですが、よりシンプルに書ける方法を採用するという Pythonic (?) な思想が垣間見えました。

こんな方におすすめ

本書は、Python を使った Webクローリング・スクレイピングについて体系的に学ぶために最適な一冊です。特に以下の方におすすめできます。

Webスクレイピングやクローラーについて基礎から応用までしっかり学びたい方
Python + Beautiful Soup を使ったWebスクレイピングを身につけ、次に何を学べばよいか知りたい方
趣味でクローラーを開発したことがあるけど、仕事でも必要になった・なるかも知れない方

以上です。増補改訂版の刊行を謹んでお慶び申しあげます！