Twilogのcsvファイルで、改行を含むツイートを処理するスクリプト
ツイート内の改行をという文字列に置き換えています。ツイートの本文中に半角のダブルクォートが含まれていると、その部分はうまく処理されない可能性もあるかと思います。
実際確認したところ、個別のツイートをWebページとしてタイトルを取得した場合、ツイートの部分がダブルクォートで囲まれるので、うまく処理がなされていませんでした。
具体的には次のようなデータです。
廣野秀樹さんはTwitterを使っています: “「刑事司法の理念からは耐え難い不正義」――袴田事件で再審開始&釈放を命じた決定を読む(江川 紹子) – 個人 – Yahoo!ニュース http://t.co/uFi8GQqQsg (3月28日付東京新聞に掲載された拙稿に大幅加筆しました)” http://ow.ly/FDRB0
#!/usr/bin/ruby # encoding: utf-8 txt=Array.new fr = open(ARGV[0]) fw = open('./twilog.txt', 'w') fr.each do |x| unless /.*\"$/ =~ x then x.gsub!(/\n/,'<CR>') end fw.write(x) end fr.close fw.close
コメントを残す