2015/05/28

UTF-8 は、BOM 無しで統一しよう

 テキストファイルなんかで扱う文字コードの話。古いアプリでは、今でも Shift-JIS で読み書きしていたりもしているが、Lazarus や Web なんかだと、必然的に UTF-8 を使うことになる。で、この UTF-8 ってのが、ちょいと曲者。BOM有りと、BOM無しの2種類がある。

 TeraPad では、UTF-8 と UTF-8N と、それぞれ、BOM有り・無しを意味するが、アプリによっては、BOMの有無の違いで読み込めなくなったりもする。

 Windows 上のコードページは同じ 65001 なのだから、ファイル自体も当然同じ。違いは、先頭の3バイト、EF BB BF が有るか無いか。ったく、何考えて、こんな仕様になったのか、頭悪すぎだろ。