前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >find加上exec的参数来批量修改文件名字

find加上exec的参数来批量修改文件名字

作者头像
生信技能树
发布2024-04-13 20:49:32
1320
发布2024-04-13 20:49:32
举报
文章被收录于专栏:生信技能树生信技能树

马拉松授课答疑群碰到了学员的一个需求:他的一个单细胞转录组项目文件夹里面的每个样品都是独立的文件夹,而且每个文件夹里面的都有一个genes.tsv.gz 文件,是需要修改为 features.tsv.gz 文件名字的!

10x的文件格式

目前10x的单细胞转录组技术给出来的表达量矩阵,主要是Market Exchange Format (MEX)格式,每个样品都会有一个filtered_feature_bc_matrix文件夹,里面会有3个文件,如下所示:

代码语言:javascript
复制
$ cd /home/jdoe/runs/sample345/outs
$ tree filtered_feature_bc_matrix

filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz

0 directories, 3 files

而且这3个文件必须是有固定的格式以及固定好的文件名字,不能修改!!!因为我们读取它的时候只需要文件夹的名字,文件夹里面的3个文件是一定要固定的!分别存储 列名(细胞barcode),行名(基因名字),表达量矩阵(稀疏矩阵格式)。

值得注意是上面的3文件都是gz格式的压缩,里面的 features.tsv.gz 理论上是可以包含更多类型的生物学特征数据,如转录本、蛋白质等。所以在早期版本它的名字其实是 genes.tsv.gz ,在设计之初是只包含基因的表达数据,而且它慢慢的不被后面的单细胞转录组数据分析流程支持了,常规的单细胞转录组降维聚类分群代码可以看 链接: https://pan.baidu.com/s/1bIBG9RciAzDhkTKKA7hEfQ?pwd=y4eh ,基本上大家只需要读入表达量矩阵文件到r里面就可以使用Seurat包做全部的流程!

所以有些时候需要做genes.tsv.gzfeatures.tsv.gz 的修改名字!

Linux命令的规则

在 Linux 中,命令通常由以下几个部分组成:

  1. 命令: 即你要执行的操作的名称,比如 ls, mkdir, find, grep 等等。
  2. 参数: 用来修改命令的行为或提供额外的信息。参数通常以短划线 - 或双短划线 -- 开头,后面跟着参数名称。例如,-l, -a, -r, --recursive 等。
  3. 文件/目录: 命令要操作的对象,可以是文件、目录或其他数据。有些命令可以不需要文件或目录参数,而是从标准输入中获取数据。

所以,命令通常的格式是 命令 [参数] [文件/目录],但这并不是绝对的。有些命令可能只需要命令名,而不需要参数或文件/目录,而有些命令可能需要多个参数或文件/目录。例如:

  • ls -l: 这个命令用于列出目录内容,并使用 -l 参数以长格式显示。
  • mkdir new_directory: 这个命令用于创建一个名为 new_directory 的新目录。
  • cat file.txt: 这个命令用于显示 file.txt 文件的内容,file.txt 是文件参数。
  • grep pattern file.txt: 这个命令用于在 file.txt 文件中搜索指定的 patternpatternfile.txt 都是参数。

接下来我们就需要使用find加上exec的参数来批量修改文件名字。

最后的命令chatGPT帮忙写的

如下所示:

代码语言:javascript
复制
find . -type f -name 'genes.tsv.gz' -exec sh -c 'mv "$0" "${0%/*}/features.tsv.gz"' {} \;

确实是有点复杂,对Linux初学者来说:

  1. find: 这个命令用于在文件系统中搜索文件和目录。在这个命令中,. 表示当前目录,-type f 表示只搜索文件,-name 'genes.tsv.gz' 表示搜索文件名为 genes.tsv.gz 的文件。
  2. -exec: 这个选项允许你在 find 命令的搜索结果上执行其他命令。在这个例子中,-exec 后面跟着要执行的命令,{} 代表 find 命令找到的每个文件。
  3. sh -c 'mv "0" 表示 find 命令找到的当前文件的路径,
  4. {}\;: 在 -exec 中,{} 代表 find 命令找到的每个文件的路径。\; 用于标记 -exec 命令的结束。

总的来说,这个命令会在当前目录及其子目录中查找所有名为 genes.tsv.gz 的文件,并将它们重命名为 features.tsv.gz

如果是大家的电脑配置不够, 那就可能是需要借助于服务器了,可以试试看问了一下课题组是否有服务器给大家开账户,没有的话,我们有一个极简的共享服务器产品,感兴趣可以看看

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-06,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 10x的文件格式
  • Linux命令的规则
  • 最后的命令chatGPT帮忙写的
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com