Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

合并gz测序文件并过滤问题 #69

Open
fallinwind opened this issue Jul 27, 2024 · 2 comments
Open

合并gz测序文件并过滤问题 #69

fallinwind opened this issue Jul 27, 2024 · 2 comments

Comments

@fallinwind
Copy link

您好,我在用SOAPnuke version2.1.7过滤二代数据时,因需要合并两次下机的数据,我使用了zcat合并再gzip压缩的方法合并了rawdata去跑fiilter,之后觉得zcat太慢了,直接使用cat合并了两次下机的fq.gz去跑filter;但最后发现使用zcat合并和cat合并跑filter的结果是不同的,这个是为什么呢,后来跑了两遍zcat发现跑两次zcat的结果是一样的,说明过滤计算可重现的。我也比较了zcatcat合并后解压出来的fastq,发现是一样的呀,但为什么两种方法合并的数据跑filter得到了两种不同的结果呢,是程序内部解压的方式的原因吗,还是有其他原因呢,使用cat合并fq.gz的数据跑filter的结果可以使用吗?

@berry08
Copy link
Collaborator

berry08 commented Aug 1, 2024

您好,"我也比较了zcat和cat合并后解压出来的fastq,发现是一样的呀",您说的一样是怎么判断的,两者的md5码一样吗?另外,如果是多个fastq输入文件,可以直接以文件列表形式输入的,在config里配置inputAsList参数,不用提前合并文件

@fallinwind
Copy link
Author

您好,"我也比较了zcat和cat合并后解压出来的fastq,发现是一样的呀",您说的一样是怎么判断的,两者的md5码一样吗?另外,如果是多个fastq输入文件,可以直接以文件列表形式输入的,在config里配置inputAsList参数,不用提前合并文件

我是用两种方法

  1. zcat合并了fastq后,再输入soapnuke filter过滤
  2. cat合并fastq,输入soapnuke filter过滤
    最终得到的clean.fastq不一样,所以挺好奇的,您那边测试的是我说的情况吗?

还有另外一个不相关的问题,就是我过滤后得到的fq1和fq2文件的reads顺序会被打乱,这个是正常的结果吧?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants