网页编码的自动获取一直是个头疼的问题,到网上搜索无数,得到的结果都差不多,不完美
后来参考Unicode-4的标准才发现,原来自己真傻啊,,下面贴出来给大海捞针的朋友看看
<转载请注明:来源www.zdexe.com智动软件>
以下是原文:
1. An HTTP "charset" parameter in a "Content-Type" field.
example:
Content-Type: text/html; charset=EUC-JP
2. A META declaration with "http-equiv" set to "Content-Type" and a value set for "charset".
example:
<META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
3. The charset attribute set on an element that designates an external resource.
example:
<A href="
http://www.w3.org/" charset="ISO-8859-1">W3C Web site</A>
第三种就不介绍了,介绍前两种方法:
1:通过获取HTTP头中Content-Type头中的charset,判断编码
2:通过获取网页内容中META标签的Content-Type类型属性charset,判断编码
3:还可以通过开头字节判断的方法来判断,这三种加起来,自动判断编码应该非常准确了
另外FIREFOX源码中也有判断编码的算法,有兴趣的可以去研究研究..