【Python】 メインコンテンツを抽出

サイト上のページから、メインコンテンツだけを抽出したいな~
って思っても、ロジックが複雑そ~
って思って、あきらめていたらこんな便利なものが~
ってことでメモメモ

言語はPythonなのだけれど、ちょうど今マイブームなので問題なしっw

readability-lxmlというモジュールで実現できるらしい!

まずはpipでインストール!

pip install readability-lxml

そしたら、下記コマンドをたたくと、なんとメインコンテンツが返ってくるのだ~

python -m readability.readability -u http://pypi.python.org/pypi/readability-lxml

ちょー簡単なうえ、優秀!!

記事ページとかなら高確率で抽出できる!
こりゃ便利w

コメント

タイトルとURLをコピーしました