无忧启动论坛

标题: 有没有懂汉字字体字符集的朋友。请问一下字符集最全的是什么标准 [打印本页]

作者: chinaren12    时间: 2023-7-5 20:40
标题: 有没有懂汉字字体字符集的朋友。请问一下字符集最全的是什么标准
常用的有gb2312,这是常用字符集。gb18030是大字符集,包含了8万个汉字
然后还有个Unicode,


请问下各位,到底哪个标准下的汉字字体包含的字最多最全?

作者: 2010sya    时间: 2023-7-5 21:00
本帖最后由 2010sya 于 2023-7-5 21:08 编辑

说的不一定对,根据个人理解说一下:
所谓字库,应该指汉字总量,汉字总量应该在10000以上,常用简化字大约在3000左右,这应该是咱们常说的文化人的识字标准,也就是说认识3000字就算文化人了。。。。。。

说道字库的概念,应该是包含字形(或者说字体),这就是一个无限大的概念了,因为字体是一个无限大的概念,宋体、隶书、楷体。。。。。。。。。。。。。。。。。。。。

作者: conlin888    时间: 2023-7-5 21:04
答案有什么意义么?
作者: chinaren12    时间: 2023-7-5 21:14
2010sya 发表于 2023-7-5 21:00
说的不一定对,根据个人理解说一下:
所谓字库,应该指汉字总量,汉字总量应该在10000以上,常用简化字大 ...

我说的是标准编码下的字体所包含的字,不是你说的什么宋体,楷体,隶书。
作者: 15126222223    时间: 2023-7-5 21:48
区别:GBK主要用于中文编码,包含全部中文字符,utf8包含全世界所有国家需要用到的字符;utf8比较灵活,长度在1-6个字节,GBK的长度为2个字节,和GBK相比,utf8会占用更多的数据库存储空间。

中文常用的编码方式:GB2312、GBK、GB18030,其中GB2312收录了7445个字符,GBK还收录了藏文,GB18030包含27000多个汉字和字符。

我常用网页编辑字符编码为utp_8,cmd经常保存就是 ASCII 码。

我知道就这些,不知道对不对。
作者: wangxiangtan2    时间: 2023-7-5 22:23
选数量多的,多的要还没包括完,那就没法了
作者: asky800    时间: 2023-7-5 22:23
本帖最后由 asky800 于 2023-7-5 22:34 编辑

gb2312,GBK,gb18030这些是储存编码标准,Unicode是显示编码,这是不同的,更具体的度娘吧。

GB18030-2022是最新的国家标准,包含8万7千多汉字。
实际上没有哪个字体能容纳这么多字符,一个字体最多容纳65536字符,要显示8w多汉字,就要用到大字符集,但目前还没基于此标准的大字符集出来(网上流通的大字符集都是GB18030-2005版)。

而说到包含最多汉字的字体,就我知道的话,花园明朝http://fonts.jp/hanazono/应该是最多的,但因为它是日本人做的,大部分汉字都是以日本汉字字形为准,我们看惯了国内的字形,看花园明朝这些字体会觉得难看。

实际上方正的GB18030标准的字体就足以满足大部分人的日常需求,就算研究古籍,装上方正的大字符集也足够了,还有更偏僻的汉字,你能用到应该也不会来这里问了,确实有需求,看这里的天珩全字库,注意不能商用。http://cheonhyeong.com/Simplified/download.html
作者: htmlc4    时间: 2023-7-5 23:00
gb2312是最少的,这是公认的,然后我印象中unicode要比gb18030多,另外考虑兼容性,还是建议优先考虑使用unicode
作者: chinaren12    时间: 2023-7-6 08:15
asky800 发表于 2023-7-5 22:23
gb2312,GBK,gb18030这些是储存编码标准,Unicode是显示编码,这是不同的,更具体的度娘吧。

GB18030-2 ...

鬼子的那个花园明朝体字是很难看的。而且这个网站还找不到下载链接。
作者: chunlei233    时间: 2023-7-6 10:44
Unicode是国际通用的最全字符集
作者: zqm0550    时间: 2023-7-6 10:46
学习一下
作者: hua_wuxin    时间: 2023-7-6 13:19
目前还没基于此标准的大字符集出来(网上流通的大字符集都是GB18030-2005版)

比较新的Windows 11测试版和正式版(22621)中附带的微软雅黑6.30版、宋体5.12版等据说已经符合GB18030-2022标准。
另外阿里巴巴普惠体3.0版明确标识符合GB18030-2022标准。
作者: tzxinqing    时间: 2023-7-6 15:09
借贴子问个问题,因为日常容易出错,如何把方正仿宋的阿拉伯数字替换为Times New Roman的,如何把Times New Roman英文状态的双引号""替换为中文的双引号“”。谢谢。
作者: szwp    时间: 2023-7-6 15:33
Unicode不光包含汉字,还有其它国家文字
gb18030版本不同,包含的字数不同
作者: asky800    时间: 2023-7-6 15:34
hua_wuxin 发表于 2023-7-6 13:19
比较新的Windows 11测试版和正式版(22621)中附带的微软雅黑6.30版、宋体5.12版等据说已经符合GB18030-2 ...

看了下新出的阿里巴巴普惠体3.0确实已经符合GB18030-2022标准,我以为还只出到2.0呢~

谢谢指正。
作者: junyee    时间: 2023-7-6 16:50
htmlc4 发表于 2023-7-5 23:00
gb2312是最少的,这是公认的,然后我印象中unicode要比gb18030多,另外考虑兼容性,还是建议优先考虑使用un ...

unicode 就是用来意图包含所有国家字符,而且一直在更新。

目前17个平面还没用完,


GB2312 (2字节) < GBK(2字节) < GB18030 (2~3字节)

unicode 是万国码,理论上要支持全世界所有字符。
和GBK 没有从属关系。

要表示unicode 又有 utf8, utf-16le, utf-16be, utf-32 等等形式。

目前windows 常用的字体格式(不是字体文件)只支持最多6W5 字符。
先不考虑够不够用,
暂时支持字符数最多的就是上面的花园体了,约6W个。
常用的雅黑、宋体都只有不到3W个。




作者: cckp    时间: 2023-7-6 17:38
韩国人抢先一步把一些汉字在unicode重复注册多次,更复杂了
作者: q2811121939    时间: 2023-8-28 10:43
CJK 统一汉字扩充 I (Unicode® 15.1.0)应该是
zhuanlan.zhihu。com/p/626905400
作者: 2010hook    时间: 2023-8-28 20:39
hua_wuxin 发表于 2023-7-6 13:19
比较新的Windows 11测试版和正式版(22621)中附带的微软雅黑6.30版、宋体5.12版等据说已经符合GB18030-2 ...

感谢告知新字体消息!
作者: nathan6498    时间: 2023-8-28 20:57
感谢分享
作者: 此生有求    时间: 2023-8-29 16:44
这个确实没得了解过
作者: leihuazhu    时间: 2023-8-29 17:03
GB18030-2000版本是2万多字,GB18030-2022又多了更多更多的字
作者: megatron    时间: 2023-9-1 07:26
这个还从来没研究过
作者: 无犹启动    时间: 2023-11-1 08:11
感谢分享




欢迎光临 无忧启动论坛 (http://bbs.c3.wuyou.net/) Powered by Discuz! X3.3