当前位置:主页 > 查看内容

根据某一列的进行去重的小工具----duplicated.exe

发布时间:2021-08-18 00:00| 位朋友查看

简介:在处理表达谱数据的时候你是否遇到过在设置行名的时候出现行名不能重复的问题那时候的你会怎么处理呢当年的我花费了很大的力气最后才解决这个问题由刚开始的用excel一个一个手动删除到现在用脚本删除这个过程用了很长时间。 现在为了让初学者更容易解决这个……

在处理表达谱数据的时候,你是否遇到过在设置行名的时候,出现行名不能重复的问题,那时候的你会怎么处理呢?当年的我,花费了很大的力气,最后才解决这个问题,由刚开始的用excel一个一个手动删除,到现在用脚本删除,这个过程用了很长时间。
现在为了让初学者更容易解决这个问题,不再走小编当前走过的艰难老路,小编将该部分功能进行封装,并做了可视化的界面,方便大家更好的理解和使用!
首先,该软件是用python包装,大家需要在使用前安装python3.8及以上的版本,安装完成后,退出杀毒软件,解压压缩包。压缩包下有这么几个文件,其实111.csv文件为小编为大家准备的测试文件
在这里插入图片描述在文件夹下dist\duplicated\duplicated.exe,双击该程序。
在这里插入图片描述选择文件所在的位置
在这里插入图片描述在测试之前,我们需要知道根据哪一列进行去重,我们测试数据重复的这列名称为‘gene’
在这里插入图片描述在这里插入图片描述按照上面显示,直接运行,这时候在去重的这个文件下多了一个result.csv的文件。
那么这列的保留重复行的方式是什么意思?
none:为所有重复的,全部删除
first:对于重复的,仅仅只保留第一次出现的那一行
last:对于重复的,仅仅只保留最后一次出现的那一行
mean:对于重复的行,取平均值

操作是不是很简单,大家有兴趣也可以试试哈!
可以加我微信获取压缩包
在这里插入图片描述

也可以自行下载,压缩包已经上传。
https://download.csdn.net/download/weixin_43949246/16779467?spm=1001.2014.3001.5501

;原文链接:https://blog.csdn.net/weixin_43949246/article/details/115916706
本站部分内容转载于网络,版权归原作者所有,转载之目的在于传播更多优秀技术内容,如有侵权请联系QQ/微信:153890879删除,谢谢!
上一篇:夜深人静写算法(二十八)- 尺取法 下一篇:没有了

推荐图文


随机推荐