返回

PHP中的iconv扩展相关函数

发布时间:2022-04-06 14:55:05 414
# php

大家可能对于iconv这个扩展的相关函数大家多少都接触过,做为PHP的默认扩展它已经存在了很久,也是我们在操作字符编码时经常会使用的函数。不过除了iconv()这个函数外,你还知道它的其它函数吗?今天,我们就来学习一下iconv扩展中的各种好玩的函数。

iconv设置及获取信息

首先,就是我们可以设置iconv扩展中默认定义的输出和输出字符编码格式。

iconv_set_encoding("internal_encoding", "UTF-8");
// Deprecated: iconv_set_encoding(): Use of iconv.internal_encoding is deprecated
iconv_set_encoding("output_encoding", "ISO-8859-1");
// Deprecated: iconv_set_encoding(): Use of iconv.output_encoding is deprecated
var_dump(iconv_get_encoding());
// array(3) {
//     ["input_encoding"]=>
//     string(5) "UTF-8"
//     ["output_encoding"]=>
//     string(10) "ISO-8859-1"
//     ["internal_encoding"]=>
//     string(5) "UTF-8"
//   }

iconv_set_encoding()接收两个参数,一个是设置的属性类型,一个是设置的编码格式。属性类型包括internal_encoding、input_encoding和output_encoding,分别代表内部的、输入的、输出的编码格式。在这段测试代码中,我们将internal_encoding设置为UTF8,将output_encoding设置为ISO-8859-1,然后使用iconv_get_encoding()打印出当前环境中相关的iconv属性设置信息,可以看到,在默认情况下当前环境中的input_encoding也是UTF8格式。

不过需要说明的是,iconv_set_encoding()已经是不推荐使用的函数了,或者说不推荐使用这个函数来设置上面的三种属性类型,它们会报出过时警告信息。现在更推荐直接使用php.ini中的default_charset来进行设置。

iconv根据编码获取字符长度、指定位置及截取字符串

在面对中文字符串的操作时,我们使用默认的strlen()之类的函数返回的中文字符长度是不正确的,这就牵涉到编码的问题。一般情况下,UTF8是占三个字节,而GBK是占两个字节,所以说一个汉字对于strlen()来说如果是在UTF8环境中会返回3。当然,现在大多数情况下我们会使用MB库扩展的相关函数来处理这种问题,不过iconv也为我们提供了几个用于字符串操作的函数。

echo iconv_strlen("测试长度测试长度"), PHP_EOL; // 8
echo iconv_strlen("测试长度测试长度", 'ISO-8859-1'), PHP_EOL; // 24
echo iconv_strlen("测试长度测试长度", 'GBK'), PHP_EOL; // 12

echo '======', PHP_EOL;

echo iconv_strpos("测试长度测试长度", "长"), PHP_EOL; // 2
echo iconv_strpos("测试长度测试长度", "长", 0, 'ISO-8859-1'), PHP_EOL; // 6
echo iconv_strpos("测试长度测试长度", "长", 0, 'GBK'), PHP_EOL; // 

echo '======', PHP_EOL;

echo iconv_strrpos("测试长度测试长度", "长"), PHP_EOL; // 6
echo iconv_strrpos("测试长度测试长度", "长", 'ISO-8859-1'), PHP_EOL; // 18

echo '======', PHP_EOL;

echo iconv_substr("测试长度测试长度", 2, 4), PHP_EOL; // 长度测试
echo iconv_substr("测试长度测试长度", 6, 12, 'ISO-8859-1'), PHP_EOL; // 长度测试
echo iconv_substr("测试长度测试长度", 3, 6, 'GBK'), PHP_EOL; // 长度测试

iconv_strlen()就是获取字符串长度的,如果不给第二个参数就按默认的字符集编码来获取字符串长度。在测试代码中可以看出,同样八个中文字的内容,使用不同的编码返回的数量是不相同的。在这里,我们发现iconv中对于GBK的中文是1.5个字节,也就是8个中文字占用了12个字节的长度。

iconv_strpos()和iconv_strrpos()和strpos()的作用一样,返回某个字符第一次出现的位置,一个是从前往后(从左往右),另一个是从后往前(从右往左)。它们的第三个参数是偏移量,也就是查找到指定字符后再偏移几个单位。从这里我们可以看出,对于GBK编码的操作是有问题的,因为在iconv中,GBK是1.5个字节,这样会带来单个字符无法定位的问题。

iconv_substr()很明显地就是截取字符串的函数了,同样我们要根据编码格式来指定它的截取位置。

iconv转换字符编码

接下来就是本尊iconv()函数的使用的了,其实它反而没什么可讲的,将指定的编码转换成另外一种编码而已,相信这个函数大家都不陌生。

$phone = file_get_contents('https://tcc.taobao.com/cc/json/mobile_tel_segment.htm?tel=13888888888');

print_r($phone);
// __GetZoneResult_ = {
//     mts:'1388888',
//     province:'����',
//     catName:'�й��ƶ�',
//     telString:'13888888888',
//         areaVid:'30515',
//         ispVid:'3236139',
//         carrier:'�����ƶ�'
// }

print_r(iconv('GBK', 'UTF-8', $phone));
// __GetZoneResult_ = {
//     mts:'1388888',
//     province:'云南',
//     catName:'中国移动',
//     telString:'13888888888',
//         areaVid:'30515',
//         ispVid:'3236139',
//         carrier:'云南移动'
// }

print_r(iconv('GBK', 'ISO-8859-1//IGNORE', $phone));
// __GetZoneResult_ = {
//     mts:'1388888',
//     province:'',
//     catName:'',
//     telString:'13888888888',
//         areaVid:'30515',
//         ispVid:'3236139',
//         carrier:''
// }

我们找到的这个淘宝用于查找手机号相关信息的开放接口,返回的正好是GBK类型的数据。当我们直接打印结果时,在UTF8环境下它就会输出乱码信息。这时,我们通过iconv()函数就能够轻松地将编码转换成UTF8格式,并正确打印出了结果。第三个测试中,我们在要转换到的字符集编码类型后面加上了//IGNORE,目的就是忽略无法转换的内容,所以可以看出在最后我们转换到错误的ISO-8859-1时,中文信息就全都没有了,因为它们无法转换就被忽略掉了。

mime邮件头操作

最后我们再看一个非常不常用的内容,那就是iconv还可以直接转换mime头中的编码内容信息。这个mime头信息其实就是标示当前文件或者内容的mime类型。平常我们会根据它来判断上传的文件是否正确,除些之外,在邮件发送中,这个mime头的使用也非常广泛。如果做过邮件发送接收相关的开发并且抓过包的同学一定见过下面的内容。

headers_string = <<<EOF
Subject: =?UTF-8?B?UHLDvGZ1bmcgUHLDvGZ1bmc=?=
To: example@example.com
Date: Thu, 1 Jan 1970 00:00:00 +0000
Message-Id: <example@example.com>
Received: from localhost (localhost [127.0.0.1]) by localhost
    with SMTP id example for <example@example.com>;
    Thu, 1 Jan 1970 00:00:00 +0000 (UTC)
    (envelope-from example-return-0000-example=example.com@example.com)
Received: (qmail 0 invoked by uid 65534); 1 Thu 2003 00:00:00 +0000
EOF;

Subject字符就是邮件的标题,To就是发送人的邮件地址。在这里我们主要看一下Subject的内容,它的开头就有一段描述这个字段使用的编码信息的内容,?UTF-8,然后后面是一堆看不懂的东西。其实我们简单地能看出来这是一个base64编码的内容,如果将它解码在对应的编码内容下就能看到原文信息。不过,这个时候我们也可以使用iconv来直接转换它的编码。

$headers =  iconv_mime_decode_headers($headers_string, 0, "ISO-8859-1");
var_dump($headers);
// array(5) {
//     ["Subject"]=>
//     string(15) "Pr�fung Pr�fung"
//     ["To"]=>
//     string(19) "example@example.com"
//     ["Date"]=>
//     string(30) "Thu, 1 Jan 1970 00:00:00 +0000"
//     ["Message-Id"]=>
//     string(21) "<example@example.com>"
//     ["Received"]=>
//     array(2) {
//       [0]=>
//       string(204) "from localhost (localhost [127.0.0.1]) by localhost with SMTP id example for <example@example.com>; Thu, 1 Jan 1970 00:00:00 +0000 (UTC) (envelope-from example-return-0000-example=example.com@example.com)"
//       [1]=>
//       string(57) "(qmail 0 invoked by uid 65534); 1 Thu 2003 00:00:00 +0000"
//     }
//   }

看到了么?不仅直接转了编码,而且还将mime头格式转换成了PHP中的数组格式。当然,我们这里测试的代码是将正常的内容转换到ISO-8859-1了,反而是出现了乱码。下面我们再拿一个中文邮件的例子来看下。

$headers_string = <<<EOF
Return-Path: <bluesky7810@163.com>
Delivered-To: bhw98@sina.com
Received: (qmail 75513 invoked by alias); 20 May 2002 02:19:53 -0000
Received: from unknown (HELO bluesky) (61.155.118.135)
    by 202.106.187.143 with SMTP; 20 May 2002 02:19:53 -0000
Message-ID: <007f01c3111c$742fec00$0100007f@bluesky>
From: "=?gb2312?B?wLbAtrXEzOwNCg==?=" <bluesky7810@163.com>
To: "bhw98" <bhw98@sina.com>
Cc: <bhwang@jlonline.com>
Subject: =?gb2312?B?ztK1xLbgtK6/2rPM0PI=?=
Date: Sat, 20 May 2002 10:03:36 +0800
MIME-Version: 1.0
Content-Type: multipart/mixed;
boundary="----=_NextPart_000_007A_01C3115F.80DFC5E0"

EOF;
$headers =  iconv_mime_decode_headers($headers_string, 0, "UTF-8");
var_dump($headers);
// array(11) {
//     ["Return-Path"]=>
//     string(21) "<bluesky7810@163.com>"
//     ["Delivered-To"]=>
//     string(14) "bhw98@sina.com"
//     ["Received"]=>
//     array(2) {
//       [0]=>
//       string(58) "(qmail 75513 invoked by alias); 20 May 2002 02:19:53 -0000"
//       [1]=>
//       string(101) "from unknown (HELO bluesky) (61.155.118.135) by 202.106.187.143 with SMTP; 20 May 2002 02:19:53 -0000"
//     }
//     ["Message-ID"]=>
//     string(40) "<007f01c3111c$742fec00$0100007f@bluesky>"
//     ["From"]=>
//     string(38) ""蓝蓝的天
//   " <bluesky7810@163.com>"
//     ["To"]=>
//     string(24) ""bhw98" <bhw98@sina.com>"
//     ["Cc"]=>
//     string(21) "<bhwang@jlonline.com>"
//     ["Subject"]=>
//     string(21) "我的多串口程序"
//     ["Date"]=>
//     string(31) "Sat, 20 May 2002 10:03:36 +0800"
//     ["MIME-Version"]=>
//     string(3) "1.0"
//     ["Content-Type"]=>
//     string(16) "multipart/mixed;"
//   }

这个中文邮件mime头的Subject指定的是GB2312。通过iconv_mime_decode_headers()函数我们将整个头信息中的内容都转换成了UTF8,这时就可以正常显示所有的内容信息了。当然,我们也可以对单个的mime字段进行转码。

echo iconv_mime_decode("Subject: =?gb2312?B?ztK1xLbgtK6/2rPM0PI=?=", 0, 'UTF-8'), PHP_EOL; // Subject: 我的多串口程序

除了对于接收的信息进行编码转换之外,我们还可以自己编码相关的内容进行发送使用。

$preferences = array(
    "input-charset" => "UTF-8",
    "output-charset" => "GBK",
    "line-length" => 76,
    "line-break-chars" => "\n"
);
$preferences["scheme"] = "Q";
echo iconv_mime_encode("Subject", "测试头", $preferences), PHP_EOL;
// Subject: =?GBK?Q?=B2=E2=CA=D4=CD=B7?=
$preferences["scheme"] = "B";
echo iconv_mime_encode("Subject", "测试头", $preferences), PHP_EOL;
// Subject: =?GBK?B?suLK1M23?=

iconv_mime_encode()函数就是用于进行mime头编码的函数。第一个参数是mime字段名,第二个参数是字段值,第三个函数就是我们进行编码的参数了。编码参数的内容通过字段名就可以看出来,从什么编码转换成什么编码,行的长度多少,换行符是什么。另外它还有一个scheme字段,就是用于指定编码结果的类型,如果设置的是B,那么编码结果就会再加一层base64操作。

其实,在没刷文档之前我也只知道一个iconv而已。甚至在学习了这些内容之后我才发现了邮件信息原来是这样编码的,自己都感觉自己一下子高大上了。好了,不说废话了,自己动手试试吧!

 

测试代码:

https://github.com/zhangyue0503/dev-blog/blob/master/php/202011/source/2.学习PHP中的iconv扩展相关函数.php

参考文档:

https://www.cnblogs.com/onelikeone/p/7865596.html

https://www.php.net/manual/zh/book.iconv.php

来源:

https://www.cnblogs.com/zyblog-coder/p/15117153.html

特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(0)
按点赞数排序
用户头像
精选文章
thumb 中国研究员首次曝光美国国安局顶级后门—“方程式组织”
thumb 俄乌线上战争,网络攻击弥漫着数字硝烟
thumb 从网络安全角度了解俄罗斯入侵乌克兰的相关事件时间线
下一篇
Java的jstack命令使用详解 2022-04-06 14:42:39