====== php中文url转码 ====== PHP中对于URL进行编码，可以使用 urlencode() 或者 rawurlencode()，二者的区别是前者把空格编码为 '+'，而后者把空格编码为 '%20'，不过应该注意的是，在编码时应该只对部分URL编码，否则URL中的冒号和反斜杠也会被转义。下面是详细解释： ===== string urlencode ( string str) ===== 返回字符串，此字符串中除了 -_. 之外的所有非字母数字字符都将被替换成百分号（%）后跟两位十六进制数，空格则编码为加号（+）。此编码与 WWW 表单 POST 数据的编码方式是一样的，同时与 application/x-www-form-urlencoded 的媒体类型编码方式一样。由于历史原因，此编码在将空格编码为加号（+）方面与 RFC1738 编码（参见 rawurlencode()）不同。此函数便于将字符串编码并将其用于 URL 的请求部分，同时它还便于将变量传递给下一页：例子 1. urlencode() 示例


';
?>

注意：小心与 HTML 实体相匹配的变量。像 &、© 和 £ 都将被浏览器解析，并使用实际实体替代所期待的变量名。这是明显的混乱，W3C 已经告诫人们好几年了。参考地址：http://www.w3.org/TR/html4/appendix/notes.html#h-B.2.2 PHP 通过 arg_separator .ini 指令，支持将参数分割符变成 W3C 所建议的分号。不幸的是大多数用户代理并不发送分号分隔符格式的表单数据。较为简单的解决办法是使用 & 代替 & 作为分隔符。你不需要为此修改 PHP 的 arg_separator。让它仍为 &，而仅使用 htmlentities(urlencode($data)) 对你的 URL 进行编码。例子 2. urlencode() 与 htmlentities() 示例



';
?>

===== string rawurlencode ( string str) ===== 返回字符串，此字符串中除了 -_. 之外的所有非字母数字字符都将被替换成百分号（%）后跟两位十六进制数。这是在 RFC 1738 中描述的编码，是为了保护原义字符以免其被解释为特殊的 URL 定界符，同时保护 URL 格式以免其被传输媒体（像一些邮件系统）使用字符转换时弄乱。例如，如果你想在 FTP 的 URL 中包含密码：例子 1. rawurlencode() 示例 1


';
?>

或者，如果你想通过 URL 的 PATH_INFO 构成部分去传递信息：例子 2. rawurlencode() 示例 2


';
?>

在解码时，可以使用相应的 urldecode() 和 rawurldecode()，相应地，rawurldecode() 不会把加号（'+'）解码为空格，而 urldecode() 可以。下面是详细示例： ===== string urldecode ( string str) ===== 解码给出的已编码字符串中的任何 %##。返回解码后的字符串。例子 1. urldecode() example


\n";
   $i++;
}
?>

===== string rawurldecode ( string str) ===== 返回字符串，此字符串中百分号（%）后跟两位十六进制数的序列都将被替换成原义字符。例子 1. rawurldecode() 示例

但是，有一点需要注意的地方是，urldecode() 和 rawurldecode() 解码出的字符串是 UTF-8格式的编码，如果URL中含有中文的话，而页面设置又不是 UTF-8 的话，则要把解码出的字符串进行转换，才能正常显示！还有一个问题，就是所获得的 URL 不是 %%nn n={0..F} 的格式，而是 %unnnn n={0..F} 的格式，这时候再使用 urldecode() 和 rawurldecode() 是无法正确解码的，而要用下面这个函数才能正确解码：


function utf8RawUrlDecode ($source)
{
    $decodedStr = "";
    $pos = 0;
    $len = strlen ($source);
    while ($pos < $len) {
        $charAt = substr ($source, $pos, 1);
        if ($charAt == '%') {
            $pos++;
            $charAt = substr ($source, $pos, 1);
            if ($charAt == 'u') {
                // we got a unicode character
                $pos++;
                $unicodeHexVal = substr ($source, $pos, 4);
                $unicode = hexdec ($unicodeHexVal);
                $entity = "&#". $unicode . ';';
                $decodedStr .= utf8_encode ($entity);
                $pos += 4;
            }
            else {
                // we have an escaped ascii character
                $hexVal = substr ($source, $pos, 2);
                $decodedStr .= chr (hexdec ($hexVal));
                $pos += 2;
            }
        } else {
            $decodedStr .= $charAt;
            $pos++;
        }
    }
    return $decodedStr;
}