最新工具——页面字符集检测 作者:ranknow.cn 发布时间:2009-01-15 点击量:3324
字符集是多个字符的集合,将固定数目的文字编序,以方便作通讯、教育、资讯处理等用途。字符集通常有两种,一是专为电脑资讯处理而设,如:ASCII、Unicode、GB 2312、大五码(Big5)、CNS 11643等。一是作其他用途的,如教育用的生字表、通讯用的电报码等。
字符集种类较多,每个字符集包含的字符个数不同。常见字符集名称:ASCII、GB2312、BIG5、GB18030、Unicode等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
ASCII:(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO646。
GB2312:又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
BIG5:又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码。Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。
GB18030:全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。
GB18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
Unicode:Universal Multiple-Octet Coded Character Set通用多八位编码字符集的简称,是由一个名为Unicode学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2005年3月31日的Unicode 4.1.0。是当前国际上最为通用的字符编码(商业规范)。
Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
UCS-2,UCS-4,UTF-32,UTF-16,UTF-8,UTF-EBCDIC和UTF-7都是Unicode编码的具体形式。
页面字符集检测工具:www.ranknow.cn/tools/pagecharset
注:只需输入页面URL,即可获得该页面的字符集。
|