正直に書くブログ

2012年9月からフリーランス活動開始しました。
今後もマニアックでも有用な情報を提供出来るように頑張ります。

お勧め

PDFリーダーが重要

昨日はNexus7ネタだったので引き続きタブレットネタで行こうと思います。と言ってもタブレットそのものの話ではなく、タブレットで見ると便利なマンガのお話です。

最近IT系のマンガをPDFに変換して、それをNexus7で読むのがマイブームです。大抵の場合はGIFとかPNG形式でマンガを画像ファイルとしてサイトに組み込んで読ませる構造が多いので、HTMLページソースから規則性を読み取って画像ファイルを一括ダウンロードします。それをWindowsアプリの「こんばーちゃ」でPDF一括にまとめると、PDF形式のマンガが出来上がりです。

こういうのは二次配布が許可されているもの以外はPDF化したものを配布することが出来ないので、その概要だけを記すにとどめておきますが、課題はWindows環境の場合

  1. マンガの画像をダウンロードする
  2. 画像をPDFにまとめる(こんばーちゃ)

ま、これだけです。言うまでもないですが1の方が大きな課題ですね。

例外的に、CCで配布して下さっている作品もあります。

架空線 – AERIAL LINE - : うぶんちゅ!

うぶんちゅは、PSD形式でも配布してくれているので、再配布の条件さえ守れば、Photoshopで加工して再配布することも可能な様です。こういう配布をしてくれているのはかなり特種な作品ですけどね。

後はやはりサイトのHTMLソースを読んで規則性を見出し、URLリストを作ってダウンローダー(Irvineなど)を使って自動でダウンロードするのが現実的でしょう。URLリストを生成するには、JavaScript等のスクリプト言語を使えば規則性のあるURLリストは容易に作成出来ると思います。

スクリプト言語はお得意なのを使えば良いでしょうし、コンパイルが必要な言語しか使えない人でも、オンライン(Webサービス)で実現出来ちゃう時代です。チャッチャと作ってしまいましょう。

Compile and Execute Programs Online| Online IDE

生成されたリストをダウンローダーにインポートして自動ダウンロードさせれば、放置プレイでマンガの画像が手に入ります。これを「こんばーちゃ」でPDF化すればはい出来上がり。

私はAndroidアプリ「ezPDF Reader」を使っています。1ページずつめくるようにして見られるので本を読んでいる感じで違和感無く読めます。有償アプリなので購入しなくてはなりませんが、数百円でこういう完成度の高いアプリが手に入り、Androidデバイスを複数持っている場合は複数でも使用出来るのはコスパが高いと思います。

なにより、PCの画面でWebブラウザでいちいち次のページへクリックして進めて読むなんてのよりも、タブレットで読んだほうが不思議と快適なのです。結構オススメですよ。

IT系のマンガを集めてくれているサイトを一つ紹介しておきます。

ITまんが ~ ITが楽しく分かるマンガを集めてみました - Publickey

IT系以外のマンガが手に入るサイトをご存知でしたら是非教えて欲しいですね。コメントお待ちしておりまっす。

Arduinoに興味がアリアリなのです

Arduino(アルドゥイーノ)というイタリア語のプロジェクトがある。このプロジェクトをとやかく説明するのは話がそれるので割愛するが、Arduinoという「ワンボード・マイコン」を使った電子工作が実に面白そうである。

Arduino-UNO-R3

このハードウェアが比較的安価に購入出来る事から、実はかなり前から気になっていた。しかしこういうモノは実際にやってみないと本当のところは分からないものなので、余裕が出来たらやってみたいなという位置づけで放置していた。

先日、プログラミングレッスン動画で定評のある「ドットインストール」が、なんとこのArduinoというハードウェアを使って、PCからプログラミングして電子素子を制御しようというレッスン動画を配信したのである。PCの画面と解説の音声に加えてハードウェアのセットアップと動画撮影。ドットインストールも新しいことにチャレンジしている。

私はこのレッスン動画を観て、Arduinoってこんなに簡単だったのか!とリアルな実感を感じ取ってしまった。本当に申し分無い程に分かりやすい動画だった。(もうちょっと応用的プログラミング・サンプルは欲しかったけどね)

Arduino入門 (全12回) - プログラミングならドットインストール

こうなると、Arduinoが欲しくて欲しくて仕方ない(w

実際のところ、最小限の投資であれば2,500円程度で済んでしまう。USBケーブルやら、発行ダイオード(LED)やら抵抗やらの電子パーツを持っているという前提だが。

【永久保証付き】Arduino Uno【永久保証付き】Arduino Uno
スイッチサイエンス
販売元:Amazon.co.jp
ArduinoをはじめようキットArduinoをはじめようキット
スイッチサイエンス
販売元:Amazon.co.jp

実際のところは電子パーツの配線が手軽に出来るブレッドボードやジャンパー線も欲しくなるだろうから、キットを購入するのが便利だとは思う。LEDや抵抗、圧電ブザー等がセットになったものもAmazonで販売されているが割高感はあまりなく良心的な価格設定に思える。現時点4,000円以内でフルセットのスターターキットが入手可能らしい。

続きを読む

ドットインストールにawkの動画レッスンがようやく追加されました

このサイトでは度々awkというテキスト処理に有利なスクリプト言語を勧める記事を記しています。私自身がネットショップの商品データを管理する仕事を担当していたこともあり、プログラミングスキルが無くても結果が得られるプログラミング言語(awk)は、非常に魅力のあるツールに違いないと確信していたからです。

先日、ドットインストールからAWKのレッスンを追加しました。というメールが届きました。そう言えばドットインストールがまだテスト運用だった頃、ネットで知り合った人に招待してもらって使えるようになり、要望欄からawkのレッスンを希望したことがあります。その時返事を頂いたのは、「awkは確かに良い言語ですね。検討してみます。」みたいな内容だったと記憶しています。過去メールを探せば残っていると思いますが別に良いでしょう。田口さんが覚えていてくれたのか、また新たに要望が上がったのかは知りませんが、何年越しかの私の要望が取り入れられたと思って満足しておきます(w

さて、ドットインストールのレッスンについてですが、レッスンはMacユーザー向けというか、ドットインストール自体がマックユーザーなので、学習環境もMac OSを前提としています。そこでWindowsユーザーはちょっと読み替える努力を要求されます。ま、通常とは逆なので、Macユーザーが何時もどういう思いをしていたか思い知る良い機会ですね(w

OSS系の言語が多いので、今回のAWKのレッスンもCentOSというLinux環境を使用する前提で進められています。しかしそんな手間をかけなくても、私はWindows環境で容易にawkを使う方法を、過去に何度かこのサイトでご紹介しています。

おーくの友だち

Windowsアプリとしてインストール出来ますので、Windowsならではのマウスで操作するUIの分かりやすさを活用出来ます。もちろんスクリプト部分にはコードを記さなくてはなりませんが、awkのコードは凝ったことをしなければ非常にシンプルで、「え?これだけで良いの?」って思う位簡単に済む事が多いです。

続きを読む

awkの高速処理でCSVからファイル楽々抽出

awkがCSVファイルの編集や、情報抽出に非常に相性の良いツールだという事は、使ってみて初めて理解できることだと思いますので、ここでいっちょ例題というかやってみようと思います。

素材は、日本郵便が提供している郵便番号データとします。全国版をダウンロードして圧縮を解凍し、テキストエディタで開くと12万行以上あることが分かります。

MS-ExcelでもCSVファイルを読み込む事は出来ますが、Excel 2003までは6万数千行までしか読み込めませんので全国分は一度には作業出来ません。Excel 2007以降なら12万行でも読み込めますけどね。最近のバージョンであれば、無料で使用出来るオフィススイートOpenOfficeやLibreOfficeのCalcでも大丈夫です。

ファイルを開けるという話で言えば、表計算でも可能ですが、実際に抽出処理を行うとawkの処理能力の素晴らしさが一気にアピール出来ます。是非とも実際にやってみていただきたいです。

例えば、欲しい列(郵便番号、都道府県、市、町名番地)を抜き出すとしましょう。表計算ならKEN_ALL.CSVを開いて、不要な列を削除して、別名で保存という感じの手作業になると思います。PCのスペックによってはもっさりした動作になるかも知れません。

キャプチャ

awkなら下記のスクリプトを通すだけで一瞬です。

続きを読む

HTMLソースからawkで抽出系処理に際しての下ごしらえ

preタグで囲ってもライブドアブログが改行コード¥n等をメタ文字として扱うので一部全角文字で記しています。

ここんところawk熱が続いています。と言ってもawk言語の理解を深めるというよりは、Cygwin環境においての最小限のスキルでどう活用するかって方法の方に興味が向いています。

例えばこちらのエントリーページから、使っている画像のURLをゲットしようとした場合の処理です。

正直に書くブログ : awkとsedでテキスト加工の自動化

ブラウザの操作でもwgetでも良いので、ローカルにソースを保存して、テキストエディタで開いてみて下さい。見慣れている人にはなんてことないと思いますが、そうでは無い人にはこんなんどないすんねん!という感じかも知れません。

しかしこれ、実は規則性があるんですね。HTMLによるマークアップ記述にはタグという概念があり、<html>から</html>という感じで囲むルールがあります。この<>というルールを利用すると、awkで処理することが容易になります。まずその為の下ごしらえをします。

$ tr -d '¥n' < source.txt > mod1.txt

trコマンドで改行コード(¥n)を削除(-d)して、mod1.txtへ出力しています。これで改行の無い連なったソースが出来上がりです。Webブラウザは改行なしでも問題なく解釈してくれるのでページは開きます。テキストエディタで開くと改行はもちろん無く、TABやらスペースを使ったインデントやらでぐちゃぐちゃに見えますがPCが認識できるソースは維持しており破綻はしていません。

$ sed 's/</¥n</g' mod1.txt > mod2.txt

sedによる置換を実施します。"<"を"¥n<"に置換して改行(¥n)で区切るのが上記です。gオプションを忘れるとsedは最初にマッチした1箇所しか処理しないのでオプションを付けましょう。

出来上がったmod2.txtをテキストエディタで開いてみるとタグ毎に改行で分割出来ているのが分かるハズです。ここまで出来ると欲しい情報をawkで抽出する準備OKって事になります。

後はawkで処理する内容の記述次第なので、この記事にくどくど記すよりは、過去記事を呼んでいただきながら自分の求めている処理を独自に記していただくのが良いでしょうね。てことでコレ移行は省略しときます。

続きを読む
記事検索
月別アーカイブ
SEO的な実験
RSS

ブログランキング

track feed 正直に書くブログ
最新コメント
スポンサードリンク
QRコード
QRコード
  • ライブドアブログ