日暮途遠(Linux)

Just another WordPress.com site

Twilogのcsvファイルで、改行を含むツイートを処理するスクリプト

leave a comment »

ツイート内の改行をという文字列に置き換えています。ツイートの本文中に半角のダブルクォートが含まれていると、その部分はうまく処理されない可能性もあるかと思います。

実際確認したところ、個別のツイートをWebページとしてタイトルを取得した場合、ツイートの部分がダブルクォートで囲まれるので、うまく処理がなされていませんでした。

具体的には次のようなデータです。

廣野秀樹さんはTwitterを使っています: “「刑事司法の理念からは耐え難い不正義」――袴田事件で再審開始&釈放を命じた決定を読む(江川 紹子) – 個人 – Yahoo!ニュース http://t.co/uFi8GQqQsg (3月28日付東京新聞に掲載された拙稿に大幅加筆しました)” http://ow.ly/FDRB0

#!/usr/bin/ruby
# encoding: utf-8

txt=Array.new
fr = open(ARGV[0])
fw = open('./twilog.txt', 'w')
fr.each do |x|
	unless /.*\"$/ =~ x then
		x.gsub!(/\n/,'<CR>')
	end
	fw.write(x)
end

fr.close
fw.close

Written by 廣野秀樹

2014年12月10日 @ 11:53 午前

カテゴリー: Ruby

Tagged with ,

コメントを残す