Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是十六进制编码后,可以解决汉字在js再编码过程中出现乱码问题,提高解释速度,我们建议在js脚本中使用十六进制unicode编码。
UniCode汉字转换,网上很多,但相对比较好使的比较少,大都写法一样,转换的效果差别不大,或多或少有些遗憾,我这找到个相对较好的,能直接转换标点符号的转换器。
【Unicode 码表】
十进制 十六进制 字符数 编码分类(中文) 编码分类(英文)起始 终止 起始 终止 (个) 0 127 0000 007F 128 C0控制符及基本拉丁文 C0 Control and Basic Latin128 255 0080 00FF 128 C1控制符及拉丁文补充-1 C1 Control and Latin 1 Supplement256 383 0100 017F 128 拉丁文扩展-A Latin Extended-A384 591 0180 024F 208 拉丁文扩展-B Latin Extended-B592 687 0250 02AF 96 国际音标扩展 IPA Extensions688 767 02B0 02FF 80 空白修饰字母 Spacing Modifiers768 879 0300 036F 112 结合用读音符号 Combining Diacritics Marks880 1023 0370 03FF 144 希腊文及科普特文 Greek and Coptic1024 1279 0400 04FF 256 西里尔字母 Cyrillic1280 1327 0500 052F 48 西里尔字母补充 Cyrillic Supplement1328 1423 0530 058F 96 亚美尼亚语 Armenian1424 1535 0590 05FF 112 希伯来文 Hebrew1536 1791 0600 06FF 256 阿拉伯文 Arabic1792 1871 0700 074F 80 叙利亚文 Syriac1872 1919 0750 077F 48 阿拉伯文补充 Arabic Supplement1920 1983 0780 07BF 64 马尔代夫语 Thaana1984 2047 07C0 07FF 64 西非書面語言 N'Ko2048 2143 0800 085F 96 阿维斯塔语及巴列维语 Avestan and Pahlavi2144 2175 0860 087F 32 Mandaic Mandaic2176 2223 0880 08AF 48 撒马利亚语 Samaritan2304 2431 0900 097F 128 天城文书 Devanagari2432 2559 0980 09FF 128 孟加拉语 Bengali2560 2687 0A00 0A7F 128 锡克教文 Gurmukhi2688 2815 0A80 0AFF 128 古吉拉特文 Gujarati2816 2943 0B00 0B7F 128 奥里亚文 Oriya2944 3071 0B80 0BFF 128 泰米尔文 Tamil3072 3199 0C00 0C7F 128 泰卢固文 Telugu3200 3327 0C80 0CFF 128 卡纳达文 Kannada3328 3455 0D00 0D7F 128 德拉维族语 Malayalam3456 3583 0D80 0DFF 128 僧伽罗语 Sinhala3584 3711 0E00 0E7F 128 泰文 Thai3712 3839 0E80 0EFF 128 老挝文 Lao3840 4095 0F00 0FFF 256 藏文 Tibetan4096 4255 1000 109F 160 缅甸语 Myanmar4256 4351 10A0 10FF 96 格鲁吉亚语 Georgian4352 4607 1100 11FF 256 朝鲜文 Hangul Jamo4608 4991 1200 137F 384 埃塞俄比亚语 Ethiopic4992 5023 1380 139F 32 埃塞俄比亚语补充 Ethiopic Supplement5024 5119 13A0 13FF 96 切罗基语 Cherokee5120 5759 1400 167F 640 统一加拿大土著语音节 Unified Canadian Aboriginal Syllabics5760 5791 1680 169F 32 欧甘字母 Ogham5792 5887 16A0 16FF 96 如尼文 Runic5888 5919 1700 171F 32 塔加拉语 Tagalog5920 5951 1720 173F 32 Hanunóo Hanunóo5952 5983 1740 175F 32 Buhid Buhid5984 6015 1760 177F 32 Tagbanwa Tagbanwa6016 6143 1780 17FF 128 高棉语 Khmer6144 6319 1800 18AF 176 蒙古文 Mongolian6320 6399 18B0 18FF 80 Cham Cham6400 6479 1900 194F 80 Limbu Limbu6480 6527 1950 197F 48 德宏泰语 Tai Le6528 6623 1980 19DF 96 新傣仂语 New Tai Lue6624 6655 19E0 19FF 32 高棉语记号 Kmer Symbols6656 6687 1A00 1A1F 32 Buginese Buginese6688 6751 1A20 1A5F 64 Batak Batak6784 6895 1A80 1AEF 112 Lanna Lanna6912 7039 1B00 1B7F 128 巴厘语 Balinese7040 7088 1B80 1BB0 49 巽他语 Sundanese7104 7167 1BC0 1BFF 64 Pahawh Hmong Pahawh Hmong7168 7247 1C00 1C4F 80 雷布查语 Lepcha7248 7295 1C50 1C7F 48 Ol Chiki Ol Chiki7296 7391 1C80 1CDF 96 曼尼普尔语 Meithei/Manipuri7424 7551 1D00 1D7F 128 语音学扩展 Phonetic Extensions7552 7615 1D80 1DBF 64 语音学扩展补充 Phonetic Extensions Supplement7616 7679 1DC0 1DFF 64 结合用读音符号补充 Combining Diacritics Marks Supplement7680 7935 1E00 1EFF 256 拉丁文扩充附加 Latin Extended Additional7936 8191 1F00 1FFF 256 希腊语扩充 Greek Extended8192 8303 2000 206F 112 常用标点 General Punctuation8304 8351 2070 209F 48 上标及下标 Superscripts and Subscripts8352 8399 20A0 20CF 48 货币符号 Currency Symbols8400 8447 20D0 20FF 48 组合用记号 Combining Diacritics Marks for Symbols8448 8527 2100 214F 80 字母式符号 Letterlike Symbols8528 8591 2150 218F 64 数字形式 Number Form8592 8703 2190 21FF 112 箭头 Arrows8704 8959 2200 22FF 256 数学运算符 Mathematical Operator8960 9215 2300 23FF 256 杂项工业符号 Miscellaneous Technical9216 9279 2400 243F 64 控制图片 Control Pictures9280 9311 2440 245F 32 光学识别符 Optical Character Recognition9312 9471 2460 24FF 160 封闭式字母数字 Enclosed Alphanumerics9472 9599 2500 257F 128 制表符 Box Drawing9600 9631 2580 259F 32 方块元素 Block Element9632 9727 25A0 25FF 96 几何图形 Geometric Shapes9728 9983 2600 26FF 256 杂项符号 Miscellaneous Symbols9984 10175 2700 27BF 192 印刷符号 Dingbats10176 10223 27C0 27EF 48 杂项数学符号-A Miscellaneous Mathematical Symbols-A10224 10239 27F0 27FF 16 追加箭头-A Supplemental Arrows-A10240 10495 2800 28FF 256 盲文点字模型 Braille Patterns10496 10623 2900 297F 128 追加箭头-B Supplemental Arrows-B10624 10751 2980 29FF 128 杂项数学符号-B Miscellaneous Mathematical Symbols-B10752 11007 2A00 2AFF 256 追加数学运算符 Supplemental Mathematical Operator11008 11263 2B00 2BFF 256 杂项符号和箭头 Miscellaneous Symbols and Arrows11264 11359 2C00 2C5F 96 格拉哥里字母 Glagolitic11360 11391 2C60 2C7F 32 拉丁文扩展-C Latin Extended-C11392 11519 2C80 2CFF 128 古埃及语 Coptic11520 11567 2D00 2D2F 48 格鲁吉亚语补充 Georgian Supplement11568 11647 2D30 2D7F 80 提非纳文 Tifinagh11648 11743 2D80 2DDF 96 埃塞俄比亚语扩展 Ethiopic Extended11776 11903 2E00 2E7F 128 追加标点 Supplemental Punctuation11904 12031 2E80 2EFF 128 CJK 部首补充 CJK Radicals Supplement12032 12255 2F00 2FDF 224 康熙字典部首 Kangxi Radicals12272 12287 2FF0 2FFF 16 表意文字描述符 Ideographic Description Characters12288 12351 3000 303F 64 CJK 符号和标点 CJK Symbols and Punctuation12352 12447 3040 309F 96 日文平假名 Hiragana12448 12543 30A0 30FF 96 日文片假名 Katakana12544 12591 3100 312F 48 注音字母 Bopomofo12592 12687 3130 318F 96 朝鲜文兼容字母 Hangul Compatibility Jamo12688 12703 3190 319F 16 象形字注释标志 Kanbun12704 12735 31A0 31BF 32 注音字母扩展 Bopomofo Extended12736 12783 31C0 31EF 48 CJK 笔画 CJK Strokes12784 12799 31F0 31FF 16 日文片假名语音扩展 Katakana Phonetic Extensions12800 13055 3200 32FF 256 封闭式 CJK 文字和月份 Enclosed CJK Letters and Months13056 13311 3300 33FF 256 CJK 兼容 CJK Compatibility13312 19903 3400 4DBF 6592 CJK 统一表意符号扩展 A CJK Unified Ideographs Extension A19904 19967 4DC0 4DFF 64 易经六十四卦符号 Yijing Hexagrams Symbols19968 40895 4E00 9FBF 20928 CJK 统一表意符号 CJK Unified Ideographs40960 42127 A000 A48F 1168 彝文音节 Yi Syllables42128 42191 A490 A4CF 64 彝文字根 Yi Radicals42240 42527 A500 A61F 288 Vai Vai42592 42751 A660 A6FF 160 统一加拿大土著语音节补充 Unified Canadian Aboriginal Syllabics Supplement42752 42783 A700 A71F 32 声调修饰字母 Modifier Tone Letters42784 43007 A720 A7FF 224 拉丁文扩展-D Latin Extended-D43008 43055 A800 A82F 48 Syloti Nagri Syloti Nagri43072 43135 A840 A87F 64 八思巴字 Phags-pa43136 43231 A880 A8DF 96 Saurashtra Saurashtra43264 43391 A900 A97F 128 爪哇语 Javanese43392 43487 A980 A9DF 96 Chakma Chakma43520 43583 AA00 AA3F 64 Varang Kshiti Varang Kshiti43584 43631 AA40 AA6F 48 Sorang Sompeng Sorang Sompeng43648 43743 AA80 AADF 96 Newari Newari43776 43871 AB00 AB5F 96 越南傣语 Vi?t Thái43904 43936 AB80 ABA0 33 Kayah Li Kayah Li44032 55215 AC00 D7AF 11184 朝鲜文音节 Hangul Syllables55296 56319 D800 DBFF 1024 High-half zone of UTF-16 High-half zone of UTF-1656320 57343 DC00 DFFF 1024 Low-half zone of UTF-16 Low-half zone of UTF-1657344 63743 E000 F8FF 6400 自行使用區域 Private Use Zone63744 64255 F900 FAFF 512 CJK 兼容象形文字 CJK Compatibility Ideographs64256 64335 FB00 FB4F 80 字母表達形式 Alphabetic Presentation Form64336 65023 FB50 FDFF 688 阿拉伯表達形式A Arabic Presentation Form-A65024 65039 FE00 FE0F 16 变量选择符 Variation Selector65040 65055 FE10 FE1F 16 竖排形式 Vertical Forms65056 65071 FE20 FE2F 16 组合用半符号 Combining Half Marks65072 65103 FE30 FE4F 32 CJK 兼容形式 CJK Compatibility Forms65104 65135 FE50 FE6F 32 小型变体形式 Small Form Variants65136 65279 FE70 FEFF 144 阿拉伯表達形式B Arabic Presentation Form-B65280 65519 FF00 FFEF 240 半型及全型形式 Halfwidth and Fullwidth Form65520 65535 FFF0 FFFF 16 特殊 Specials
UTF-8有点类似于Haffman编码,它将Unicode编码为:0x00-0x7F的字符,用单个字节来表示;0x80-0x7FF的字符用两个字节表示;0x800-0xFFFF的字符用3字节表示;汉字的unicode范围是:0x4E00~0x9FA5其实这个范围还包括了中,日,韩的字符。
之前一直对RGB与十六进制颜色规定有一些错觉,认为转换很复杂,有一套复杂的标准。今天研究后,发现其实很简单。对于RGB传入的是一个三通道元组,每一个分量均在0~255。转换为十六进制即对每一个通道的数值转换为二位十六进制,不足用0补齐,再按顺序拼接得到。最终前面加上#就是最终的十六进制代码。同样的,反向转化即将十六进制代码两位两位拆开,分别转化为十进制,即得到RGB值。这也就解释了为什么RGB上限
开源免费的 FcDesigner 是一个基于 Vue 开发的开源低代码可视化表单设计工具,致力于通过直观的拖拽方式快速创建表单。凭借其友好的用户界面和高度的可扩展性,这一工具显著提升了开发效率,广泛应用于政务、OA、ERP、电商等系统。
在处理CSV文件时,常常需要考虑文件的编码格式。Java中的CSVReaderBuilder类是常用于读取CSV文件的工具之一,但它并没有直接提供设置编码的方法。本文将介绍如何通过其他方式设置CSV文件的编码。
# Unicode编码表与Java的应用Unicode是一种字符编码标准,用于表示文本中包含的字符,包括了几乎所有语言的字符。Java从一开始就将Unicode作为其字符表示的基础,这使得Java能够跨平台处理各种语言的文本。本文将探讨Unicode编码如何在Java中应用,并通过示例代码来展示一些基本的操作。## 什么是Unicode?Unicode是一个标准,它为世界上的每一个字符
## 实现Java Unicode编码表的流程以下是实现Java Unicode编码表的流程图:```mermaidflowchart TD; A[开始]-->B[创建一个Java类文件]; B-->C[导入必要的包]; C-->D[创建一个公共类]; D-->E[添加一个公共静态void main方法]; E-->F[创建一个字符变量];
unicode 汉字编码表!啊:21834 阿:38463 埃:22467 挨:25384 哎:21710 唉:21769 哀:21696 皑:30353 癌:30284
说明为了避免在CSS中使用 font 或 font-family 设置中文字体时乱码,可以使用 Unicode
# Python的Unicode编码表实现## 前言在讲解如何实现Python的Unicode编码表之前,我们首先需要了解一些基本概念。Unicode是一个全球通用的字符编码标准,它为世界上几乎所有的字符分配了一个唯一的标识符。Python中使用的字符串类型是unicode字符串,它支持存储和处理Unicode字符。## 实现流程下面是实现Python的Unicode编码表的流程:
# Python中Unicode编码表的实现## 引言在Python中,Unicode编码是一种用于表示字符的标准编码系统。Unicode编码表可以用于查找字符和对应的编码。本文将教会刚入行的开发者如何实现Python中的Unicode编码表。## 整体流程下面是实现Python中Unicode编码表的整体流程:```mermaidjourney title 实现Pyth
十进制 十六进制 字符数 编码分类(中文) 编码分类(英文) 起始 终止 起始 终止 (个) 0 127 0000 007F 128 C0控制符及基本拉丁文 C0 Control and Basic Latin 128 255 0080 00FF 128 C1控制符及拉丁文补充-1 C1 Contr
Unicode编码则是采用双字节16位来进行编号,可编65536字符,基本上包含了世界上所有的语言字符,它也就成为了全世界一种通用的编码,而且用十六进制4位表示一个编码,非常简结直观,为大多数开发者所接受,特别是十六进制编码后,可以解决汉字在js再编码过程中出现乱码问题,提高解释速度,我们建议在js脚本中使用十六进制unicode编码。UniCode汉字转换,网上很多,但相对比较好使的比较少,大都
一、Unicode编码1 UTF-8 -16 -32编码和Unicode编码一种计算机字符编码标准,其实个人认为叫字符集更为准确;而我们熟悉的UTF-8 UTF-16 UTF-32是Unicode的具体实现(怎么存储在计算机)。 1)Unicode编码规范制定标准:把世界上所有能出现的字符,都为其分配一个数字来表示,比如,数字U+7F57被分配给了汉字中的"罗"字。Unicode编码的标准里字符
编码表概述和常见的编码表
Unicode的编码和实现大概来说,Unicode编码系统可分为编码方式和实现方式两个层次。 编码方式字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”也是一个字符。字符集是字符的集合。编码字符集是一个字符集,它为每一个字符分配一个唯一数字。Unicode 最初设计是作为一种固定宽度的 16 位字符编码。也就是每个字符占用2个字
本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧。字符串类型str:Unicode字符串。采用''或者r''构造的字符串均为str,单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定,在Python内部存储时没有区别。bytes:二进制字符串。由于jpg等其他格式的文件不能用str进行显示,所以才用bytes来表
一 疑问什么是Emoji,跟Unicode什么关系,要搞懂emoji为什么要先理解Unicode?什么是Unicode,跟ASCII什么关系?大端序小端序是什么概念?哪些机器用大端序,哪些机器用小端序、什么是编码?什么是码表?Java用的是什么编码?二 编码字符集和字符编码表编码字符集 (Coded Character Set 即 CCS) 编码字符集的概念就是,给现实世界中的字符,对应的映射一个