多言語の混ざったCSVを出力する

普通にCSVを作ろうとすると、大体Shift-JISで出力してしまうのだけど、CSV中に複数言語入っているともちろん文字化ける。ならばとUTF-8で出力するとExcel先生的にぐっちゃになる。さてどうしたものかと思案したのだけど、要するにBOM付きUTF-8にしてしまえば文字化けずに開けるようになるらしい。

なんかすごくアレな対応なのだけど、まぁ、出力できるならそれに越したことはないわけで。PHPで書くとこんな感じ。

<?php
// はじめにBOMを出力する
echo pack('C*',0xEF,0xBB,0xBF);
// なんやかんやとCSVを出力
//  文字コードはUTF-8にしておくこと
echo $csv;
?>

phpでCSVを読み込むらしいライブラリ

古いディレクトリを漁っていると出てきたので一応サルベージ
もはや、いつどうして作ったのか不明なので、動作確認すらせずに公開だけしておくことにする

<?php
class CsvParser {
var $handle;
var $length;
var $d;
var $e;
var $fromEncode = "auto";
var $toEncode   = "auto";
function CsvParser($handle, $length = null, $d = ',', $e = '"') {
$this->handle = $handle;
$this->length = $length;
$this->d      = preg_quote($d);
$this->e      = preg_quote($e);
}
function getCSV() {
$d      = $this->d;
$e      = $this->e;
$length = $this->length;
$handle = $this->handle;
$_line  = "";
while ($eof != true) {
$_line .= (empty($length) ? fgets($handle) : fgets($handle, $length));
$itemcnt = preg_match_all('/' . $e . '/', $_line, $dummy);
if ($itemcnt % 2 == 0) {
$eof = true;
}
}
$_line = mb_convert_encoding($_line, $this->toEncode, $this->fromEncode);
$_csv_line = preg_replace('/(?:\\r\\n|[\\r\\n])?$/', $d, trim($_line));
$_csv_pattern = '/(' . $e . '[^' . $e . ']*(?:' . $e . $e . '[^' . $e . ']*)*' . $e . '|[^' . $d . ']*)' . $d . '/';
preg_match_all($_csv_pattern, $_csv_line, $_csv_matches);
$_csv_data = $_csv_matches[1];
for ($_csv_i = 0; $_csv_i < count($_csv_data); $_csv_i++) {
$_csv_data[$_csv_i] = preg_replace('/^' . $e . '(.*)' . $e . '$/s', '', $_csv_data[$_csv_i]);
$_csv_data[$_csv_i] = str_replace($e . $e, $e, $_csv_data[$_csv_i]);
}
return empty($_line) ? false : $_csv_data;
}
}
?>

改行やゼロパディングを含んだCSVの作成する

CSVファイルを生成してExcelで表示することはある種日常茶飯なわけです。
の割りに改行を含んだ文字列をExcelの1セルに表示したり「001」のようにゼロパディング(ゼロ詰め?)した文字列を表示するときになると、すっかり忘れて考え込んでしまうので覚書程度にまとめておきます。

サンプルとしてはこんな感じ

|csv|

test,test,=”2″,”改行を

含む奴”,=”001″

||<

ポイントはこんな感じ
-区切り文字の「,」の後に不要な空白を置かない
-改行を含む文字列の場合には、「”」で括る。
–原則的に文字列は括ったほうが幸せだけど次参照
-ゼロパディングされた文字列の場合は、「”」の前に[=]を置く

いっそ全部のフィールドを「=”値”」にしてやれば良いんじゃないかと思ったけど、改行を含むフィールドの場合では「=”値”」にすると上手くいかないようです