UTR-8编码文件上传BOM头问题（实际问题PHP上传csv文件首字符串长度出现问题） ...

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› PHP›PHP编程经验

UTR-8编码文件上传BOM头问题（实际问题PHP上传csv文件首字符串长度出现问题） ...

原作者: [db:作者] 来自: [db:来源] 收藏邀请

这两天在做PHP上传CSV文件的时候，第一列第一个值总是在正则验证不过。例如第一列第一个值是“test_test1”,第一列第二个值是"test_test2",没有本质差别的两个值对于同一个正则却给出了两个结果。在很纠结的时候用var_dump打印了一下两个值。居然发现显示的结果“test_test1”长度13，而"test_test2"长度10。为什么会有这个差别，在网上找了一段材料。才明白是BOM头的问题

　　BOM —— Byte Order Mark，中文名译作“字节顺序标记”。在这里找到一段关于 BOM 的说明：　　在UCS 编码中有一个叫做 "Zero Width No-Break Space" ，中文译名作“零宽无间断间隔” 的字符，它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符，所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前，先传输字符 "Zero Width No-Break Space"。这样如果接收者收到 FEFF，就表明这个字节流是 Big-Endian 的；如果收到FFFE，就表明这个字节流是 Little- Endian 的。因此字符 "Zero Width No-Break Space" （“零宽无间断间隔”）又被称作 BOM。　　UTF-8 不需要 BOM 来表明字节顺序，但可以用 BOM 来表明编码方式。字符 "Zero Width No-Break Space" 的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8编码了。Windows 就是使用 BOM 来标记文本文件的编码方式的。　　字符U+FEFF如果出现在字节流的开头，则用来标识该字节流的字节序，是高位在前还是低位在前。如果它出现在字节流的中间，则表达零宽度非换行空格的意义，用户看起来就是一个空格。从Unicode3.2开始，U+FEFF只能出现在字节流的开头，只能用于标识字节序，就如它的名称——字节序标记——所表示的一样；除此以外的用法已被舍弃。取而代之的是，使用U+2060来表达零宽度无断空白。　　类似WINDOWS自带的记事本等软件，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隐藏的字符，用于让记事本等编辑器识别这个文件是否以UTF-8编码。对于一般的文件，这样并不会产生什么麻烦。但对于 PHP来说，BOM是个大麻烦。　　PHP并不会忽略BOM，所以在读取、包含或者引用这些文件时，会把BOM作为该文件开头正文的一部分。根据嵌入式语言的特点，这串字符将被直接执行（显示）出来。由此造成即使页面的 top padding 设置为0，也无法让整个网页紧贴浏览器顶部，因为在html一开头有这3个字符呢！

不同编码的字节顺序标记的表示

编码	表示 (十六进制)	表示 (十进制)
UTF-8	EF BB BF	239 187 191
UTF-16（大端序）	FE FF	254 255
UTF-16（小端序）	FF FE	255 254
UTF-32（大端序）	00 00 FE FF	0 0 254 255
UTF-32（小端序）	FF FE 00 00	255 254 0 0
UTF-7	2B 2F 76和以下的一个字节：[ 38 \| 39 \| 2B \| 2F ]	43 47 118和以下的一个字节：[ 56 \| 57 \| 43 \| 47 ]
en:UTF-1	F7 64 4C	247 100 76
en:UTF-EBCDIC	DD 73 66 73	221 115 102 115
en:Standard Compression Scheme for Unicode	0E FE FF	14 254 255
en:BOCU-1	FB EE 28及可能跟随着FF	251 238 40及可能跟随着255
GB-18030	84 31 95 33	132 49 149 51

也就是说在这个CSV文件最开始的时候隐藏了三个不可见的字符（0xEF 0xBB 0xBF，即BOM），PHP不会隐藏这个BOM。所以出现了两个字符串不相等的状况。

所以上传文件时要去除BOM头。

解决办法：$s = trim($s, "\xef\xbb\xbf\xff\xfe");

"\xef\xbb\xbf\xff\xfe" 中
"\xef\xbb\xbf" utf-8
"\xff\xfe" utf-16le （低位在前）
"\xfe\xff" utf-16be （高位在前）
分别表示相应的 BOM 头

不知道说的明白不明白，不过遇到这个问题的人倒是可以先参考这个解决办法把问题解决了，然后在网上再找找相关资料。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

php连接mssql常见的所有问题发布时间：2022-07-10

记录PHP的进程和线程理解发布时间：2022-07-10

GitbookIO/gitbook:

1 kojino/Harvard-Robust-Machine-Learning:

kojino/Harvard-Robust-Machine-Learning: Repository for CS282R: Robust Machine Le

阅读：734|2022-08-18

2 cescoffier/puppet-nexus: A Puppet Module

cescoffier/puppet-nexus: A Puppet Module for Nexus (Maven)

阅读：724|2022-08-16

3 文的笔顺,诠释文的笔画,解读文的部首

文字笔顺怎么写?文字笔顺笔画顺序是什么?诠释文字的笔画顺序怎么写了解到好多的写字朋

阅读：936|2022-11-06

4 CVE-2022-31519

The Lukasavicus/WindMill repository through 1.0 on GitHub allows absolute path t

阅读：512|2022-07-29

5 Cassolotl/sentient.cloud · GitHub

Cassolotl/sentient.cloud · GitHub

阅读：563|2022-08-18

6 robisim74/angular-library-starter: Build

robisim74/angular-library-starter: Build an Angular library compatible with AoT

阅读：561|2022-08-15

7 zentyal/zentyal: Linux Small Business Se

zentyal/zentyal: Linux Small Business Server

阅读：490|2022-08-15

8 updownpress/markdown-lint: Markdown Lint

updownpress/markdown-lint: Markdown Lint Tool / Checker Documentation by Mark Ha

阅读：796|2022-08-18

9 安装别墅家用电梯的实用性及安装方面的注意

? 随着社会的快速发展，人们的生活水平在不断提高的同时，更加注重享受生活。便捷、舒

阅读：449|2022-11-06

10 CVE-2022-2179

The X-Frame-Options header in Rockwell Automation MicroLogix 1100/1400 Versions

阅读：647|2022-07-29

客服电话

电子邮件

UTR-8编码文件上传BOM头问题（实际问题PHP上传csv文件首字符串长度出现问题） ...

不同编码的字节顺序标记的表示

请发表评论

全部评论

上一篇：

下一篇：

librespeed/speedtest: Self-hosted Speedt

四维彩超怎么看性别？四维看男孩女孩诀窍

lvpengyuan/corner: Multi-Oriented Scene

matlab实现图像高斯滤波 - 可可洁儿

web-ridge/react-native-paper-dates: Smoo

GitbookIO/gitbook:

CVE-2022-2295

juleswhite/mobile-cloud-asgn1

kyamagu/matlab-json: Use official API: h

墙壁眼睛膝盖

sevenjay/cpp-markdown: Cpp-Markdown is a

关于我们

产品与服务

解决方案

139-2527-9053