Unicodeエンコーダー/デコーダー
テキストをUnicodeエスケープシーケンスに変換、またはデコードします。
計算方法
Unicodeエスケープは、文字を\uXXXX形式のコードポイントで表現する方式です。
主な用途:
• プログラミングでソースコードに特殊文字を表現する場合
• JSONデータで非ASCII文字をエンコードする場合
• 国際化(i18n)作業時
エンコード形式:
• 基本多言語面(BMP): \uXXXX(4桁の16進数)
• 補助文字(絵文字など): \uXXXX\uXXXX(サロゲートペア、JSON/Java互換)
• すべての文字(ASCIIを含む)を\uXXXX形式に変換します。
デコード対応形式: \uXXXX · \u{XXXXX}
計算例
よくある質問
UnicodeとUTF-8の違いは?
Unicodeは世界中のすべての文字にユニークなコードポイントを割り当てた標準(例: U+AC00 = 가)で、UTF-8はそのコードポイントをバイトとして格納するエンコード方式の一つです。UTF-16やUTF-32もあります。
サロゲートペアとは何ですか?
U+FFFF以上の補助文字(絵文字など)は4桁のUnicodeエスケープでは表現できません。上位サロゲート(U+D800~U+DBFF)と下位サロゲート(U+DC00~U+DFFF)の2つのコードユニットを組み合わせるサロゲートペア方式を使います。JSONやJavaで補助文字をエンコードする標準的な方法です。
JSONでUnicodeエスケープは必須ですか?
いいえ。JSON仕様では非ASCII文字を\uXXXXでエスケープすることは任意です。UTF-8で保存すればそのまま使用できます。ただし、ASCII専用の環境やデバッグ時にはエスケープが便利です。
ASCII文字もUnicodeですか?
はい。Unicodeの最初の128コードポイント(U+0000~U+007F)はASCIIと同一です。例えばAはU+0041、aはU+0061です。このツールはASCIIを含むすべての文字を\uXXXX形式にエンコードします。