www.rdoz.net（Blogger）: 5月 2015

2015/05/28

UTF-8 は、BOM 無しで統一しよう

　テキストファイルなんかで扱う文字コードの話。古いアプリでは、今でも Shift-JIS で読み書きしていたりもしているが、Lazarus や Web なんかだと、必然的に UTF-8 を使うことになる。で、この UTF-8 ってのが、ちょいと曲者。BOM有りと、BOM無しの２種類がある。

　TeraPad では、UTF-8 と UTF-8N と、それぞれ、BOM有り・無しを意味するが、アプリによっては、BOMの有無の違いで読み込めなくなったりもする。
TeraPad

　Windows 上のコードページは同じ 65001 なのだから、ファイル自体も当然同じ。違いは、先頭の３バイト、EF BB BF が有るか無いか。ったく、何考えて、こんな仕様になったのか、頭悪すぎだろ。
バイナリ