文字コード とは?
人間の読める文字を0と1の情報に変換する為のコード表。ならびにその種類。
コンピュータは、全ての情報を0と1の組み合わせて記憶・処理をする。
人間が、「あ」と打ち込んでも「あ」を覚えるのではなく、「あ」に対応する0と1の組み合わせを記録する仕組みになっている。
元々、英語圏で発達したコンピュータは、英数と記号しか扱わずに済んだので、8個の0と1の組み合わせで全ての文字を定義する事ができた。
これを1バイト文字という。簡単にいうと「半角英数」という奴。
ところが、日本を含めて、1バイト=8ビット=256文字分では、とても、定義枠が足らないので、2バイト=16ビット=65536文字分の定義枠の規格を作って、日本語の漢字などを当てはめた。
これが「全角日本語」だ。
各文字と01の組み合わせを定義づけた表を文字コードという。
この文字コードが1種類であれば、問題ないのだが、いろいろあって、現在、複数の日本語文字コードが存在する。
例えば、Aという文字コードで記録されているファイルをBという文字コードで開くと、当然、対応する文字が違う為、何の事やらさっぱりわからない、(つまり、「あ」のところに「え」、「い」のところに「あ」が出るようなもの)表示が出てくる事になる。
ホームページを表示して、ブラウザの表示からエンコードを選び、適当に変えてみれば、強制的に文字コードによる文字化けを体験する事ができる。