Scrapy+AWS LambdaでWeb定点観測のイレギュラーに立ち向かう

Python Scrapy

この記事はクローラー／Webスクレイピング Advent Calendar 2016 の10日目の記事です。 9日目は @hotu_ta さん、11日目は @TakesxiSximada さんでした。 Web スクレイピングはイレギュラーとの戦いです。特にそれが Web 定点観測のためのスクレイピングで…

2016-12-11

optparse-declarative のコードリーディングから型レベルプログラミングを学ぶ

Haskell

この記事は Haskell Advent Calendar 2016 の9日目の記事です。とか云ってもう11日ですね、ホントすみません。 8日目は @phi16_ さん、10日目は @bra_cat_ket さんでした。 Haskell を書き始めてはや5年、Monad や Applicative は使いこなしているけど、そ…

2016-11-26

Python2 で日本語(Unicode)対応の PrettyPrint

Python

通常、print はユニコード文字列であっても読みやすく表示してくれます。 print(u"ほげ") # => ほげしかし pprint モジュールの pprint() を使うと、なぜだかユニコード文字列がエスケープされるようになります。 pprint.pprint(u"ほげ") # => u'\u307b\u30…

2016-11-19

JavaScript のコールスタックが溢れていたのをどうにかしたら JS 要らなくなった話

CSS ECMAScript 6 JavaScript

約5ヶ月前にこんな記事を書いたわけですが、 blog.mudatobunka.org この記事が今になってよく見られるようになってます。先週までは毎日1桁のPVをコツコツを積み重ねていたのが本日だけで130PVです。どこかの誰かに拾っていただいたんでしょうね。はてブも…

2016-11-19

毎月数時間を要していたスキャンデータ整理をOCRで自動化した

OCR Python

企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャンしてスキャンデータを残しておく決まりになっています。書類を作るのに…

2016-10-30

Lazy_K で九九表のすべてのマスの和

Lazy_K λ計算

前回の記事で [九九表のすべてのマスの和を求める問題] をいろいろな言語で書きました。記事の最後でそのうち Lazy_K でも書きます的な事を宣言しておいたんですが、この度そのコードが完成しましたのでご報告します。

2016-10-12

九九表のすべてのマスの和

Haskell JavaScript Python PHP

takatoh 様が同じ問題を Ruby と Scheme で解いてくださいました。許可を得て転記させていたいています。 Ruby 版の簡素さはさすがという感じです。そして、Scheme 版の S式は慣れないと読めないし分からないのが面白いですね。takatoh 様、本当にありがと…

2016-10-03

Python+OpenCV で顔検出 - OpenCV に付属の評価器を試す

Python OpenCV

画像の中から人の顔が写っている場所を自動的に判定する顔検出ってやつをやってみようと思います。そのために OpenCV という有名なライブラリを使用します。OpenCV 自体は様々な言語と組み合わせて使うことが出来るのですが、今回は自分が書き慣れている …

2016-09-24

Scrapy でエラーハンドリング for v1.1.3 (※一部未解決)

Python Scrapy

突然ですが Scrapy v1.1.0 から Python 3 に対応して嬉しいですね。これまで Scrapy のために 2.7 で通してきたんで。さて、今回は Scrapy におけるエラーハンドリング(例外処理) についてまとめようと思います。スクレイピングという行為は外部の構造化…

2016-09-04

【jQueryの基本の"き"】パート4 - jQueryのいろんなバージョン

JavaScript jQuery jQueryの基本の"き"

これまでjQueryの使い方についてねちっこく解説してきましたが...。今回は「使い方」ではなく「選び方」です。ビギナーズからよく飛び出す質問「どのバージョンのjQueryを使えばいいの？」について。 jQueryは最新版だけでも全部で8つ 2016年8月末時点でjQ…

2016-09-03

【jQueryの基本の"き"】パート3 - 起動スクリプトを囲っているアレをひもとく

JavaScript jQuery jQueryの基本の"き"

さて、前回までjQueryプラグインの基本的な使い方をおさらいして、さらに起動スクリプトについて詳しく解説してみました。今回は、これまで意図的に触れずにスルーしてきた部分をピックアップします。起動スクリプトを囲っているよく見るアレについてです…

2016-08-28

Scrapy のクローリング中に win32api が無くてコケる問題に対処(Windows10, 64bit, Python2.7)

Scrapy

昨日は Windows で Scrapy 1.1.2 をインストールするために必要な libxml2 のインストールについて解説しました。 blog.mudatobunka.org が、どうやら Windows ではクローリングを実行するときにもう一つ win32api というライブラリが必要になるようです。 w…

2016-08-27

Scrapy インストール中に libxml2 が無くてコケる問題に対処(Windows10, 64bit, Python2.7)

Scrapy

Scrapy を最新版の v1.1.2 にしたくて pip install scrapy したらインストール中にコケました。 python -m virtualenv env env\Scripts\activate pip install scrapy とやっても... コケる。なにやら libxml2 というライブラリが見つからないと言われていま…

2016-08-27

【jQueryの基本の"き"】パート2 - 起動スクリプトを詳しく解説

JavaScript jQuery jQueryの基本の"き"

前回はjQueryプラグインを設置するための基本的な流れを解説しました。今回はプラグインを使いこなすための要(かなめ)になる起動スクリプトについてイメージしやすい例で解説していきます。起動スクリプトとは前回解説しましたが、jQuery本体やプラグイ…

2016-08-26

【jQueryの基本の"き"】パート1 - jQueryプラグインの使い方

JavaScript jQuery jQueryの基本の"き"

jQueryプラグインの作り方ではなく、使い方です。 Web上には多くのjQueryプラグインが公開されていますが、どのプラグインにも共通する基本の使い方を解説します。普段、サンプルコードをなんとなくコピペするだけで済ませてしまっている人も、基本さえ…

2016-08-14

React で this.props.children に新しい Props を渡す

JavaScript React

React でカスタムコンポーネントを作るとき、コンポーネントの子要素には this.props.children でアクセスできます。この this.props.children はそのままレンダリングすることもできるのですが、何かしらの Props を渡したくなったらどうするのでしょうか…

2016-06-26

【今日のバグ取り】 JavaScript でコールスタックが溢れていたのをどうにかした話

CSS JavaScript

lazex さまのはてブコメントを受けて、animation プロパティを使った改良版を書きました。完全にこっちの方が良いので、参考にするならばどちらかというと新実装の方で。 lazex さま、ご指摘ありがとうございます。 JavaScript のコールスタックが溢れていた…

2016-05-30

とあるCSSハックの弔い

CSS

今日、私の職場でデザイナーに向けて共有していたCSSの雛形から、とある2行を削除した。CSSとHTMLとを交互に見てもらえば分かるとおり、削除された2行のCSSは全く意味を成さない。だから削除した。が、意味を成さないこの2行にはちゃんと意味がある。実はこ…

2016-05-08

Python で文字列の類似度を比較する

Python

日本語の処理をしているときに厄介なのが表記揺れですよね。「問い合わせ」と「問い合せ」など。人間が見れば同じ単語だと分かっても、プログラムで処理する際に単純に等号で比較してしまうと別の単語扱いになってしまいます。今回は類似度を用いて二つの単…

2016-04-26

Fetch API が 4xx エラーを reject してくれない

JavaScript

最近のフロントエンド開発に関して、 jQuery への依存を極力減らしてPure JS だけでいろいろな処理を書くように心掛けています。具体的には ECMAScript2015 で書いたものを Babel でトランスパイルして、Browserify でバンドルするというスタイルですね。ホ…

2016-04-07

Slimフレームワークで整形された JSON レスポンスを返す

PHP Slim

Slim フレームワークは PHP 製のマイクロフレームワークです。 Ruby 製の Sinatra というフレームワークにインスパイアされて作られたもので。リクエストのルーティングと、それに応答する処理を記述するだけで Web アプリが作れる、その名の通り最小限(マイ…

2016-03-13

Google Analytics - セグメントの理解

Google Analytics

はじめにこの記事はデベロッパー向けに Google Analytics Core Reporting API のセグメントについて掘り下げて解説する記事です。 Google Analytics の初心者向けに「セグメントとは？」と解説するものではありません。 Reporting API で動的セグメントを最…

2016-03-07

Scrapy で相対パスを解決して絶対パスに変換 for v1.0.4

Scrapy Python

スクレイピングネタです。 Scrapy は Spider の perse() メソッドの中で新しい Request オブジェクトを yield してあげるだけで、次々に URL を辿ってクローリングしていけるので便利ですね。例えば、response.xpath("//a/@href").extract() とかすればペー…