前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >踩坑经验 | Mysql导入emoji报错

踩坑经验 | Mysql导入emoji报错

作者头像
做数据的二号姬
发布2023-10-24 13:51:01
2340
发布2023-10-24 13:51:01
举报
文章被收录于专栏:HR大数据HR大数据

踩坑经验 | Mysql导入emoji报错

上周遇到了中文长度的问题之后,就想起了很久之前遇到的这个问题,也是一个和长度相关的问题。

LEARN MORE

图片由360鸿图绘制

还是老规矩,周日不定期更新的踩坑系列。还是先介绍一下遇到这个问题的业务场景,因为时间比较久远了,很多细节已经想不起来了。

上周分享了中文到底占几个字节的这个很神奇的报错是如何产生的以及怎么处理的。当时遇到这个问题的时候,就让我想起了一个很久之前遇到的问题,直觉上觉得这两个问题应该从本质上是同一个问题。只不过之前遇到这个问题的时候就是简单粗暴的百度一下解决问题了,并没有深究(其实是没有时间去深究),但是当时并没有仔细去分析一下为什么会出这样的问题。仔细研究过后,发现,emoji的这个问题确实和上周分享的字符长度溢出的问题有异曲同工之妙。所以说,基础原理还是非常重要的。如果对基础原理非常熟悉的话,可能一眼就知道问题为什么会发生以及需要如何去解决了。

业务场景是老的saas系统下线,需要把导出的备份数据文件落库存储备份(别问我为社么这事是数分干不是IT干,创业公司没有那么明确的分工)。导出数据批量建表的时候,copy了建表语句进行建表操作的。但是数据入库的时候发生了报错,通过排查报错的数据之后发现,报错来自于微信昵称这个字段中的emoji字符。

上周末的推送讲了,在mysql中,中文是占3个字节的。而emoji比较特殊,占4个字符。mysql默认使用的的UTF-8只支持三个字节的存储,而一般字符是三个字节,但是emoji表情是4个字节,所以存储不了。因此,有表情的字段上就有将该字段设置为utf8mb4。

根据各种资料收集的结果来看,不同版本的mysql对于设置这里是有细微的区别的。总的来说,无外乎就是,设置字段为utf8mb4,如果不管用,就把整张表都改成utf8mb4,要是还不行就把整个库改成utf8mb4。

需要用到的语句分别如下:

代码语言:javascript
复制
 --设置修改字段
 ALTER TABLE table_name 
 MODIFY  colum_name  VARCHAR(100) CHARACTER 
 SET utf8mb4 COLLATE utf8mb4_unicode_ci
 
 --不管用修改表
  ALTER TABLE table_name CHARSET=utf8mb4;
 
 --还是不管用修改整个库
  SET NAMES utf8mb4

这一套操作下来,基本肯定能解决问题。不过还有另一种解决问题的方案,那就是——直接把emoji转成varchar进行存储。

二号姬

半路出家自学成才的文科数据人,看过了大厂的风景也做过了小厂的CDO~目前是闲职,主要是想沉淀自己,自媒体写作是最好的自我总结和自我复盘

做数据的

二号姬

坚持小众内容原创+自己写稿的二号姬

周一:AIGC相关,包括但不限于教程、使用评测

周二:数据处理技术分享、代码分享

周三:工作效率提升工具/技巧,办公自动化等

周四:读书笔记系列,分享读书心得和要点

周五:聊聊职场,包括但不限于求职面试

周六:随缘分享,内容不确定

周日:随缘分享一些技术踩坑经验

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-10-21,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 做数据的二号姬 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com