熊本の司法書士・行政書士まつむら・まつなが事務所です 2

熊本の司法書士・行政書士まつむら・まつなが事務所です 1(https://mm-nankanoffice1.com/)も宜しくお願いします!

『スクレイピング・ハッキング・ラボ』の齊藤貴義氏よりプログラムの改善案をいただいた!

前回の記事はこちらです。

www.mm-nankanoffice2.com

  • コロナ禍の今年、令和2年6月頃からPythonをなんとなく勉強し始めたこと
  • そして挫折していたこと
  • 齊藤貴義氏の著書『スクレイピング・ハッキング・ラボ』にわたしの挫折ポイントがやさしく解説してあったこと
  • スクレイピングが楽しい


ざっくりとこのような内容を書いております。そして、ブロガーの方ならわかっていただけると思うのですが、ブログ記事のアイキャッチ画像つくるのがめんどくさい!これを自動化しよう!というプログラムの作成進捗状況の報告をしておりました。

そしたらなんと!著者の齊藤氏よりプログラム改善案をご教示いただきました!ありがとうございます。

齊藤 貴義 (著) Pythonを使ったWebスクレイピングテクニックについての解説書。Kindle版(電子書籍)とオンデマンド (ペーパーバック)版があります。

わたしはKindle版を購入しております。

著者の齊藤貴義氏に補足をいただいた!捕捉?


教えていただいたのは、『Pythonでいろいろやってみる』というサイトの1つの記事です。たどりつけてなかった。さっそくこちらも読者登録させていただきました。

tat-pytone.hatenablog.com

ひとまずできた!

f:id:mm-nankanoffice:20201005061548p:plain

できた!

こちらのブログ記事のタイトル(文字列)をスクレイピングして取得し、これを画像化しています。

www.mm-nankanoffice2.com

前回の記事では、文字列の取得はできていますが、表示ができていなかったのです。

f:id:mm-nankanoffice:20201003191715p:plain

見切れている

どのようなプログラムにしているのか?

  1. スクレイピングで取得
  2. 表示

という流れにしています。2の部分はほぼ、『Pythonでいろいろやってみる』さんの記事のままです。

1については、『スクレイピング・ハッキング・ラボ』のプログラムをちょこっと修正しています。

f:id:mm-nankanoffice:20201005064748p:plain

さらに改善点

あたまに半角スペースがある?もともとのデータ(上記リンクの元記事のタイトル)には半角スペースはないので、わたしのプログラム側になんらかのミスがあるのかな?

引き続き検証をしてみたいと思います。これもまた楽しい。

齊藤 貴義 (著) Pythonを使ったWebスクレイピングテクニックについての解説書。Kindle版(電子書籍)とオンデマンド (ペーパーバック)版があります。

この記事には続きがあります

文頭の半角スペースを除去できました~。

www.mm-nankanoffice2.com