BOM
字节顺序标记(byte order mark),是位于码点U+FEFF的统一码字符的名称。当以UTF-16或UTF-32来将UCS/统一码字符所组成的字符串编码时,这个字符被用来标示其字节序。它常被用来当做标示文件是以UTF-8、UTF-16或UTF-32编码的标记。
不同编码的字节顺序标记的表示:
编码 | 表示(十六进制) | 表示(十进制) |
UTF8 | EF BB BF | 239 187 191 |
UTF-16(大端序) | FE FF | 254 255 |
UTF-16(小端序) | FF FE | 255 254 |
UTF-32(大端序) | 00 00 FE FF | 0 0 254 255 |
UTF-32(小端序) | FF FE 00 00 | 255 254 0 0 |
BOM添加
UTF8编码不需要BOM, 但是我们可以手动给UTF8编码文件添加一个BOM头
const fs = require('fs'); fs.writeFile('./bom.js', '\ufeffThis is an example with accents : é è à ', 'utf8', function (err) {})
BOM移除
对于UTF8来说,BOM的有无并不是必须的,因为UTF8字节没有顺序,不需要标记,也就是说一个UTF8文件可能有BOM,也可能没有BOM。
根据不同编码的BOM不同,我们可以根据文件头几个字节来判断文件是否包含BOM,以及使用的那种Unicode编码。
BOM字符虽然起到了标记文件编码的作用,其本身却不属于文件内容的一部分,如果读取文本文件时不去掉BOM,在某些使用场景下就会有问题。例如我们把几个JS文件合并成一个文件后,如果文件中间含有BOM字符,就会导致浏览器JS语法错误。因此,使用Node.js读取文本文件时,一般需要去掉BOM。
// 对于字符串内容 function stripBOM(content) { // 检测第一个字符是否为BOM if (content.charCodeAt(0) === 0xFEFF) { content = content.slice(1); } return content; } // 对于Buffer function stripBOMBuffer(buf) { if (buf[0] === 0xEF && buf[1] === 0xBB && buf[2] === 0xBF) { buf = buf.slice(3); } return buf; }
参考
总结
到此这篇关于Node.js文本文件BOM头去除的文章就介绍到这了,更多相关Node.js文本文件BOM头去除内容请搜索站长技术以前的文章或继续浏览下面的相关文章希望大家以后多多支持站长技术!
学习关系型数据库MySQL是很好的切入点,大部分人学习和工作中用惯了CRUD,对面试...
想了解更多内容,请访问: 51CTO和华为官方战略合作共建的鸿蒙技术社区 https://...
作为一款「写作软件」在诞生之初就支持了 Markdown,Markdown 是一种「电子邮件...
今天准确说是昨天一下子就过12点了下午刚参加了CSP认证考试大概是考了220前两题A...
Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的...
引言: 因为之前在项目开发中一直都是使用的Log4Net作为项目的日志记录框架,最...
Javascript中的遍历循环 1.for循环 对于数值索引的数组来说,可以使用标准的for...
注:由于thinkphp5.1没有自带验证码,所以需要通过composer安装think-captcha 扩...
SpringBoot中的拦截器Interceptor随笔 1定义拦截器定义一个拦截器类实现HandlerI...
复制代码 代码如下: script var xhr = ''; function Ajax() { if(window.XMLHttp...