当前位置：主页 > 查看内容

csv文件容错处理方法

发布时间：2021-04-24 00:00| 有位朋友查看

简介：如果数据库有特殊字符(换行符，转义符),会导致生成的csv无法正常导入。 val1,val2,val3aa,bb,ccaa,bb,ccaa,bb,ccaa,bb,cca\a,bb,cc 第一行header和第二行数据正常。第三行第一个列有换行符，此时导致第四行看着正常(3列),但是数据又是错误的。第五行跟第三……

如果数据库有特殊字符(换行符，转义符),会导致生成的csv无法正常导入。

val1,val2,val3
aa,bb,cc
a
a,bb,cc
aa
,bb,cc
aa,
bb,cc
a\a,bb,cc

第一行header和第二行数据正常。
第三行第一个列有换行符，此时导致第四行看着正常(3列),但是数据又是错误的。
第五行跟第三行类似
第七行实际是第二个单元格首字符换行，导致第八行缺失一列。
第九行有转义符

处理成

val1,val2,val3
aa,bb,cc
aa,bb,cc
aa,bb,cc
aa,bb,cc
aa,bb,cc

利用空闲时间，用python写了个修补工具,原理是利用，csv是从上往下读的，如果前一行列数不够，一定可以从后一列补上。但是可能存在补完后超过指定列(比如列内包含分隔符，导致数据库3列，变成4列)，所以需要对其切片，只保留指定列数。

clean_csv.py

# -*- coding: utf-8 -*-
# Author AnJia(anjia0532@gmail.com https://anjia0532.github.io)
import argparse
import sys, os
import io
reload(sys)
sys.setdefaultencoding('utf8')
black_dict={"\\":"","\"":""}
def main():
  parser = argparse.ArgumentParser()
  parser.add_argument('--cols', type=int, dest='cols', action='store', default=-1,help="count of columns,default first line's cells")
  parser.add_argument('--src', type=str, dest='src', action='store', default='',
            help='path to source csv file')
  parser.add_argument('--dest', type=str, dest='dest', action='store', default='',
            help='path to dest csv file')
  parser.add_argument('--encoding', type=str, dest='encoding', action='store', default='utf-8',
            help='file encoding,default utf-8')
  parser.add_argument('--chunksize', type=int, dest='chunksize', action='store', default='10000',
            help='batch lines to write dest file,default 10000')
  parser.add_argument('--delimiter', type=str, dest='delimiter', action='store', default=',',
            help='csv delimiter,default ,')
  args = parser.parse_args()
  cols = args.cols
  src = args.src
  dest = args.dest
  encoding = args.encoding
  chunksize = args.chunksize
  delimiter = args.delimiter
  if not (src and dest) or chunksize <= 0:
   print("invaild args!") 
   sys.exit(-1)
  olds=[]
  lines=[]
  with io.open(src,encoding=encoding) as fp:
   for line in fp.readlines():
    line = line.strip()
    for k,v in black_dict.items():
     if k in line:
      line=line.replace(k,v)
    cells = line.split(delimiter)
    if cols == -1:
     cols=len(cells)
    if(len(cells) < cols or (len(olds)>0 and len(olds) < cols)):
     if not olds:
      olds = cells
     else:
      cells[0]=olds[-1]+cells[0]
      olds.pop()
      olds.extend(cells)
    if len(olds) >= cols:
     cells=olds
     olds=[]
    if not olds:
     lines.append(delimiter.join(cells[0:cols])+"\n")
    if len(lines) % chunksize == 0:
     write_to_file(dest=dest,lines=lines)
     lines=[]
   write_to_file(dest=dest,lines=lines)
def write_to_file(dest,lines=[],encoding='utf-8'):
 p = os.path.split(dest)[0]
 if not os.path.exists(p):
  os.makedirs(p)
 with io.open(file=dest,mode="a+",encoding=encoding) as fp:
  fp.writelines(lines)
if __name__ == '__main__':
  main()

使用方式

python clean_csv.py --src=src.csv --dest=dest.csv --chunksize=50000 --cols --encoding=utf-8 --delimiter=,

总结

以上所述是小编给大家介绍的csv文件容错处理方法,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对尊托云数网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

本文转载自网络，原文链接：https://m.jb51.net/article/165911.htm
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：cnpm不是内部命令的解决方案：配置环境变量【推荐】 下一篇：Hadoop 文件系统命令行基础详解

推荐图文



使用selenium自动控制浏览器找不到Chromedriver问题

网络编程

[Asp.Net Core]提高开发效率的方法

网络编程

Python常用的正则表达式处理函数详解

网络编程

游戏玩家的程序猿之路

网络编程

精彩的空间说说：为了未来美一点，现在必须苦一点

网络编程

Linux系统行为新型实时监控技术

网络编程

周排行

月排行

总排行

1 使用vs2019加.net core 对WeiApi的创建过

2 【HTML 元素】标记文字详解

3 中文转换成html中的utf-8的方法

4 123

5 控制面板变革，微软 Windows 10 系统内部

6 jsp 实现的简易mvc模式示例

7 对错误，漏洞和exploits的说明

8 使用Ajax方法实现Form表单的提交及注意事

9 读取数据库的数据并整合成3D饼图在jsp中

10 ajax实现文件异步上传并回显文件相关信息

1 PHP实现猜数游戏

2 python 正则表达式 re.sub & re.subn

3 详解Spring Controller autowired Reques

4 FCKeditor 插件开发示例（详细版本）

5 Request获取Session的方法总结

6 Flutter 返回上一页并刷新

7 关于中考的空间说说：再不疯狂我们就老了

8 微软彻底删除Edge经典版！Edge经典版为何

9 添加FCKeditor插件需要注意的地方

10 ASP模拟POST请求异步提交数据的方法

1 Linux 5.13 将移除 WiMAX 支持的相关代码

2 编辑器中designMode和contentEditable的

3 表单正则验证及文件上传验证功能

4 详解Spring mvc ant path的使用方法

5 XML轻松学习手册（2）XML概念

6 ASP通过ODBC连接SQL Server 2008数据库的

7 MySQL表的增删改查(基础)

8 很现实的说说：男人抗拒不了的是新欢，女

9 Tomcat启动成功访问主页失败的原因解决方

10 git克隆远程仓库的指定分支方法(附常用gi

随机推荐

Mac系统下搭建Nginx+php-fpm实例讲解

分享背景由于一直在虚拟机的状态下开发PHP,尝试一下mac本地搭建环境.mac本身是...

WordPress伪静态规则设置代码实例

伪静态：即网站本身是动态网页如.php、.asp、.aspx等格式，而这类网页还带“”加...

.net core 静态类获取appsettings的方法

注入获取注入获取通过IConfiguration直接获取的方法官方文档里就有，可以直接看...

JS获取一个字符串中指定字符串第n次出现

了解类似的获取字符位置的方法： charAt() 获取字符串指定位置的字符用法：strO...

JavaScript 实现继承的几种方式

非ES6代码实现继承的主流方式主要可以分为：构造继承、原型链继承、构造继承+原...

HTML常用meta总结（笔记）

HTML常用meta 文章目录 HTML常用meta Meta(元数据) 提示以下是本篇文章正文内容...

Asp.Net中的Action和Func委托实现

前言最近在阅读某开源框架源码的时候，发现作者在其中运用了很多 Action委托和...

空间经典说说：世界上没有陌生人，只有还

1．如果你连追求自己喜欢的事物与人的勇气都没有，你注定是个失败者。 2．不要因...

MySQL 与 PostgreSQL 比较，哪个更好、我

问题如果打算为项目选择一款免费、开源的数据库，那么你可能会在 MySQL 与Pos...

ASP 提示非法赋值的解决方法

分析可能是： asp的一些保留字段导致，具体的大家可以参考这篇文章： ASP常见的...

csv文件容错处理方法

推荐图文

随机推荐

关于我们