偶然发现博客正文中的中文都被编码成了 HTML 字符实体,也就是中文「静」被编码为 静
,在 UTF-8 中一个中文字符由三个字符编码,而转成 HTML 字符实体后一个中文字符占 8 个字节,增加了 167%。一篇博客正文占据主要部分,四舍五入,转换后 HTML 文件体积比直接使用 UFT-8 编码大了一倍。
偶然发现博客正文中的中文都被编码成了 HTML 字符实体,也就是中文「静」被编码为 静
,在 UTF-8 中一个中文字符由三个字符编码,而转成 HTML 字符实体后一个中文字符占 8 个字节,增加了 167%。一篇博客正文占据主要部分,四舍五入,转换后 HTML 文件体积比直接使用 UFT-8 编码大了一倍。