Scrapy のクロール実行時 win32api の ImportError でコケる (Windows10, Python 3.5.2, Scrapy 1.5.0)

Python Scrapy

Scrapy でバグっぽい挙動にぶつかったので状況と解決策の記録です。クローラーの実行に失敗するいつものように Scrapy でクローラーを走らせようとしたらエラーでコケました。エラーのログはこんな感じ。 2018-01-27 14:36:06 [scrapy.utils.log] INFO: S…

2017-06-03

Python3 で言語処理100本ノック 2015 - 第3章

Python 言語処理100本ノック

乾・岡崎研究室が公開している言語処理100本ノック 2015 に取り組んで行きます。使用する言語は Python3 です。第3章です。一部の方が大好きな正規表現の章です。私は…、あんまり好きじゃないですね。第3章: 正規表現 Wikipediaの記事を以下のフォー…

2017-05-06

Python3 で言語処理100本ノック 2015 - 第2章

Python 言語処理100本ノック

まさか続くとは。乾・岡崎研究室が公開している言語処理100本ノック 2015 に取り組んで行きます。使用する言語は Python3 です。第2章まで出来たんでまとめます。第2章: UNIXコマンドの基礎 hightemp.txtは，日本の最高気温の記録を「都道府県」「地点…

2017-04-23

Python3 で言語処理100本ノック 2015 - 第1章

Python 言語処理100本ノック

乾・岡崎研究室が公開している言語処理100本ノック 2015 に取り組んで行きます。使用する言語は Python3 です。第1章から第10章で構成されているのでまずは第1章から。ではスタート。 00. 文字列の逆順文字列"stressed"の文字を逆に（末尾から先頭に向…

2017-03-28

Python で日時計算～月初とか月末とか N ヵ月前とか

Python

Python で日付計算と言えば datetime モジュールですね。まぁまぁ便利なんですが、標準では月初や月末を求めることができません。なのでちょっとしたユーティリティコードとして書いておきました。 N ヶ月後・N ヶ月前 add_month() は N ヶ月後の同日同…

2016-12-18

Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう

Python Scrapy

この記事はクローラー／Webスクレイピング Advent Calendar 2016 の10日目の記事です。 9日目は @hotu_ta さん、11日目は @TakesxiSximada さんでした。 Web スクレイピングはイレギュラーとの戦いです。特にそれが Web 定点観測のためのスクレイピングで…

2016-11-26

Python2 で日本語(Unicode)対応の PrettyPrint

Python

通常、print はユニコード文字列であっても読みやすく表示してくれます。 print(u"ほげ") # => ほげしかし pprint モジュールの pprint() を使うと、なぜだかユニコード文字列がエスケープされるようになります。 pprint.pprint(u"ほげ") # => u'\u307b\u30…

2016-11-19

毎月数時間を要していたスキャンデータ整理をOCRで自動化した

OCR Python

企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャンしてスキャンデータを残しておく決まりになっています。書類を作るのに…

2016-10-12

九九表のすべてのマスの和

Haskell JavaScript Python PHP

takatoh 様が同じ問題を Ruby と Scheme で解いてくださいました。許可を得て転記させていたいています。 Ruby 版の簡素さはさすがという感じです。そして、Scheme 版の S式は慣れないと読めないし分からないのが面白いですね。takatoh 様、本当にありがと…

2016-10-03

Python+OpenCV で顔検出 - OpenCV に付属の評価器を試す

Python OpenCV

画像の中から人の顔が写っている場所を自動的に判定する顔検出ってやつをやってみようと思います。そのために OpenCV という有名なライブラリを使用します。OpenCV 自体は様々な言語と組み合わせて使うことが出来るのですが、今回は自分が書き慣れている …

2016-09-24

Scrapy でエラーハンドリング for v1.1.3 (※一部未解決)

Python Scrapy

突然ですが Scrapy v1.1.0 から Python 3 に対応して嬉しいですね。これまで Scrapy のために 2.7 で通してきたんで。さて、今回は Scrapy におけるエラーハンドリング(例外処理) についてまとめようと思います。スクレイピングという行為は外部の構造化…

2016-05-08

Python で文字列の類似度を比較する

Python

日本語の処理をしているときに厄介なのが表記揺れですよね。「問い合わせ」と「問い合せ」など。人間が見れば同じ単語だと分かっても、プログラムで処理する際に単純に等号で比較してしまうと別の単語扱いになってしまいます。今回は類似度を用いて二つの単…

2016-03-07

Scrapy で相対パスを解決して絶対パスに変換 for v1.0.4

Scrapy Python

スクレイピングネタです。 Scrapy は Spider の perse() メソッドの中で新しい Request オブジェクトを yield してあげるだけで、次々に URL を辿ってクローリングしていけるので便利ですね。例えば、response.xpath("//a/@href").extract() とかすればペー…

2016-01-20

Scrapy の start_urls をファイルから読み込む for v1.0.4

Python Scrapy

Scrapy の start_urls を外部ファイルから読み込んで設定する方法を書き留めます。Scrapyのバージョンは 1.0.4 を想定しています。現状だとスクレイピング対象の URL はハードコーディングされています。対象 URL をソースコードに直書きしつつ管理したいと…

2015-11-26

Scrapy の Item Pipeline の中で settings を参照する for v1.0.3

Python Scrapy

最近はPython書いてます。さて、settings.py に記述したカスタムの設定をItem Pipelineで使いましょう。 Scrapyのバージョンは1.0.3を想定しています。まぁ、公式ドキュメントのサンプルそのままなんですけど。まずは settings.py に適当に書く ssettings…

無駄と文化

実用的ブログ

Python

Scrapy のクロール実行時 win32api の ImportError でコケる (Windows10, Python 3.5.2, Scrapy 1.5.0)

Python3 で言語処理100本ノック 2015 - 第3章

Python3 で言語処理100本ノック 2015 - 第2章

Python3 で言語処理100本ノック 2015 - 第1章

Python で日時計算～月初とか月末とか N ヵ月前とか

Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう

Python2 で日本語(Unicode)対応の PrettyPrint

毎月数時間を要していたスキャンデータ整理をOCRで自動化した

九九表のすべてのマスの和

Python+OpenCV で顔検出 - OpenCV に付属の評価器を試す

Scrapy でエラーハンドリング for v1.1.3 (※一部未解決)

Python で文字列の類似度を比較する

Scrapy で相対パスを解決して絶対パスに変換 for v1.0.4

Scrapy の start_urls をファイルから読み込む for v1.0.4

Scrapy の Item Pipeline の中で settings を参照する for v1.0.3