30.2K Views
December 10, 21
スライド概要
mRNA-Seq のマッピングをざっとまとめたもの。ゲノム配列が解読されている生き物について STAR でマッピングしていく。de novo はまた今度やる。
社会人になり、アフリカに行き、そして大学に戻ってきたピチピチの博士課程学生(専門:環境科学)である。博士号はまだない。バイオインフォマティクスの諸々についてふわっふわっと説明したい。
mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析 マッピング編 2021/12/02 ⽔産⽣物環境学(九州⼤学) ⾼井優⽣
今回はマッピング編ですが どんな解析ツールを使うとしても
マニュアルを しっかりと 読んでください
これが⼀番基本です 「できなーい」と⾔ってる⼈の 99.999% は マニュアルを読んでません
「読んだし︕」と⾔い張る⼈もいますが 読んでません それは ⾒ただけです
もう⼀度⾔います
マニュアルを しっかりと 読んでください
mRNA-Seq 解析の流れをざっくりと説明してみた mRNA-Seq 解析 マッピング編 2021/12/02 ⽔産⽣物環境学(九州⼤学) ⾼井優⽣
インデックス作成 STAR
マッピング⽤のインデックス作成 使⽤するソフトウェア︓STAR(2.7.9a) 最初 だけ マッピングをする時に STAR が使⽤する⽬印(索引、インデックス)を作ってあげるイメージです 使うオプションはこんな感じです(詳細はマニュアルを読んでください) オプション 指定する内容の⼤まかな説明 --runMode 実⾏する処理の内容を指定 --genomeFastaFiles ゲノム配列のファイルの場所(ファイル名) --genomeDir インデックスを保存する場所(ディレクトリ) --sjdbGTFfile GTFファイルの場所(ファイル名) --sjdbOverhang マニュアル参照、リードの⻑さ – 1 の値を⼊れると良いらしい --runThreadN 使⽤するスレッド数 実際にはこんな感じ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8
マッピング⽤のインデックス作成 使⽤するソフトウェア︓STAR(2.7.9a) 最初 だけ うまくいくとこんな感じの出⼒になります ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang 149 --runThreadN 8 -STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run Nov 30 09:13:29 ... starting to generate Genome files Nov 30 09:13:53 ..... processing annotations GTF Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... Nov 30 09:20:44 ... loading chunks from disk, packing SA... Nov 30 09:21:21 ... finished generating suffix array Nov 30 09:21:21 ... generating Suffix Array index Nov 30 09:23:05 ... completed Suffix Array index Nov 30 09:23:06 ..... inserting junctions into the genome indices Nov 30 09:28:35 ... writing Genome to disk ... Nov 30 09:28:37 ... writing Suffix Array to disk ... Nov 30 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully
マッピング⽤のインデックス作成 使⽤するソフトウェア︓STAR(2.7.9a) 最初 だけ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと(マッピングできなくなります)になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... Nov 30 09:20:44 ... loading chunks from disk, packing SA... Nov 30 09:21:21 ... finished generating suffix array Nov 30 09:21:21 ... generating Suffix Array index Nov 30 09:23:05 ... completed Suffix Array index Nov 30 09:23:06 ..... inserting junctions into the genome indices Nov 30 09:28:35 ... writing Genome to disk ... Nov 30 09:28:37 ... writing Suffix Array to disk ... Nov 30 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully
マッピング⽤のインデックス作成 使⽤するソフトウェア︓STAR(2.7.9a) 最初 だけ ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと(マッピングできなくなります)になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF これでもう⼀回実⾏ Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... ubuntu@ubuntu-man$ STAR --runMode \ Nov 30 09:20:44 ... loading chunks from genomeGenerate disk, packing SA... > /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ Nov--genomeFastaFiles 30 09:21:21 ... finished generating suffix array Nov--genomeDir 30 09:21:21 ... generating Suffix Array index > /home/ubuntu/references/java_medaka \ Nov 30 09:23:05 ... completed Suffix Array index > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ Nov 30 09:23:06 ..... inserting junctions into the genome indices > \ Genome to disk ... Nov--sjdbOverhang 30 09:28:35 ... 149 writing > 8 \writing Suffix Array to disk ... Nov--runThreadN 30 09:28:37 ... > 13 Nov--30genomeSAindexNbases 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully
マッピング⽤のインデックス作成 使⽤するソフトウェア︓STAR(2.7.9a) 最初 だけ インデックス作成は⼀つのゲノム配列につき⼀回⾏えば良いので マッピングの度にインデックス作成をやり直す必要はありません ubuntu@ubuntu-man$ STAR --runMode genomeGenerate \ > --genomeFastaFiles /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ > --genomeDir /home/ubuntu/references/java_medaka \ > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ > --sjdbOverhang 149 \ > --runThreadN 8 STAR --runMode genomeGenerate --genomeFastaFiles ゲノムのサイズによってはこういう警告が出てくる時もあります /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa --genomeDir /home/ubuntu/references/java_medaka --sjdbGTFfile !!!!! WARNING: --genomeSAindexNbases 14 is too large for the genome size=809679899, which may cause /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf --sjdbOverhang--genomeSAindexNbases 149 --runThreadN 8 -seg-fault at the mapping step. Re-run genome generation with recommended 13 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 09:13:29 ..... started STAR run これを無視するとあとで⼤変なこと(マッピングできなくなります)になるので Nov 30 09:13:29 ... starting to generate Genome files 素直にメッセージに従ってあげましょう Nov 30 09:13:53 ..... processing annotations GTF これでもう⼀回実⾏ Nov 30 09:14:13 ... starting to sort Suffix Array. This may take a long time... Nov 30 09:14:22 ... sorting Suffix Array chunks and saving them to disk... ubuntu@ubuntu-man$ STAR --runMode \ Nov 30 09:20:44 ... loading chunks from genomeGenerate disk, packing SA... > /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.dna.toplevel.fa \ Nov--genomeFastaFiles 30 09:21:21 ... finished generating suffix array Nov--genomeDir 30 09:21:21 ... generating Suffix Array index > /home/ubuntu/references/java_medaka \ Nov 30 09:23:05 ... completed Suffix Array index > --sjdbGTFfile /home/ubuntu/references/java_medaka/Oryzias_javanicus.OJAV_1.1.104.gtf \ Nov 30 09:23:06 ..... inserting junctions into the genome indices > \ Genome to disk ... Nov--sjdbOverhang 30 09:28:35 ... 149 writing > 8 \writing Suffix Array to disk ... Nov--runThreadN 30 09:28:37 ... > 13 Nov--30genomeSAindexNbases 09:28:46 ... writing SAindex to disk Nov 30 09:28:48 ..... finished successfully
マッピング STAR
ゲノム配列へのマッピング 使⽤するソフトウェア︓STAR(2.7.9a) 作成したインデックスを使⽤して、mRNA-Seq のリードをゲノム配列にマッピングしていきます オプション 指定する内容の⼤まかな説明 --genomeDir インデックスを保存した場所(ディレクトリ) --readFilesIn リードファイルの場所(ファイル名) --readFilesCommand リードデータの解凍コマンド(リードファイルが gz などで圧縮されてる場合のみ) --outFileNamePrefix 出⼒結果の名前 --outSAMtype 出⼒ファイルの種類(ソートした BAM ファイルがおすすめ) --quantMode マッピングしたリードのカウントを⾏う(遺伝⼦単位、トランスクリプト単位) --runThreadN 使⽤するスレッド数 ubuntu@ubuntu-man$ STAR --genomeDir /home/ubuntu/references/java_medaka \ > --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz \ > /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz \ > --readFilesCommand gunzip -c \ > --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ \ > --outSAMtype BAM SortedByCoordinate \ > --quantMode GeneCounts \ > --runThreadN 8
ゲノム配列へのマッピング 使⽤するソフトウェア︓STAR(2.7.9a) うまくいくとこんな感じの出⼒になります ubuntu@ubuntu-man$ STAR --genomeDir /home/ubuntu/references/java_medaka \ > --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz \ > /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz \ > --readFilesCommand gunzip -c \ > --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ \ > --outSAMtype BAM SortedByCoordinate \ > --quantMode GeneCounts \ > --runThreadN 8 STAR --genomeDir /home/ubuntu/references/java_medaka --readFilesIn /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_1.fq.gz /home/ubuntu/takai/00_Java_ANTandMP/00_CleanReads/C1_2.fq.gz --readFilesCommand gunzip -c --outFileNamePrefix /home/ubuntu/takai/00_Java_ANTandMP/02_STAR/C1_ --outSAMtype BAM SortedByCoordinate --quantMode GeneCounts -runThreadN 8 STAR version: 2.7.9a compiled: 2021-08-24T11:30:05+09:00 :/home/ubuntu/src/STAR-2.7.9a/source Nov 30 12:08:05 ..... started STAR run Nov 30 12:08:05 ..... loading genome Nov 30 12:08:14 ..... started mapping Nov 30 12:20:15 ..... finished mapping Nov 30 12:20:18 ..... started sorting BAM Nov 30 12:20:45 ..... finished successfully
マッピング結果の確認 使⽤するソフトウェア︓STAR(2.7.9a) --outFileNamePrefix で指定したディレクトリに以下のファイルができます ファイル名 ファイルの中⾝ <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピング されたかを⽰す情報(IGV でマッピング結果 を可視化するときに使う) <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out マッピングのログ <Prefix>_Log.progress.out マッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードを カウントした結果 <Prefix>_SJ.out.tab スプライスジャンクションに関する情報
マッピング結果の確認 ubuntu@ubuntu-man$ cat C1_Log.final.out Started job on Started mapping on Finished on Mapping speed, Million of reads per hour 使⽤するソフトウェア︓STAR(2.7.9a) | | | | Nov 30 12:08:05 Nov 30 12:08:14 Nov 30 12:20:45 52.64 Number of input reads | 10981870 --outFileNamePrefix で指定したディレクトリに以下のファイルができます ファイル名 Average input read length | UNIQUE READS: Uniquely mapped reads number | Uniquely mapped reads % | Average mapped length | Number of splices: Total | Number of splices: Annotated (sjdb) | Number of splices: GT/AG | Number of splices: GC/AG | Number of splices: AT/AC | Number of splices: Non-canonical | Mismatch rate per base, % | Deletion rate per base | Deletion average length | Insertion rate per base | Insertion average length | MULTI-MAPPING READS: Number of reads mapped to multiple loci | % of reads mapped to multiple loci | Number of reads mapped to too many loci | % of reads mapped to too many loci | UNMAPPED READS: Number of reads unmapped: too many mismatches | % of reads unmapped: too many mismatches | Number of reads unmapped: too short | % of reads unmapped: too short | Number of reads unmapped: other | % of reads unmapped: other | CHIMERIC READS: Number of chimeric reads | % of chimeric reads | ファイルの中⾝ 295 9938499 90.50% 293.11 13872226 13152511 13787197 61166 1620 22243 0.52% 0.03% 2.60 0.03% 2.03 <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピング されたかを⽰す情報(IGV でマッピング結果 を可視化するときに使う) <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out <Prefix>_Log.progress.out マッピングのログ マッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードを 314950 カウントした結果 2.87% <Prefix>_SJ.out.tab スプライスジャンクションに関する情報 0.35% 37969 0 0.00% 607775 5.53% 82677 0.75% 0 0.00%
マッピング結果の確認 ubuntu@ubuntu-man$ cat C1_Log.final.out Started job on Started mapping on Finished on Mapping speed, Million of reads per hour 使⽤するソフトウェア︓STAR(2.7.9a) | | | | Nov 30 12:08:05 Nov 30 12:08:14 Nov 30 12:20:45 52.64 Number of input reads | 10981870 --outFileNamePrefix で指定したディレクトリに以下のファイルができます ファイル名 Average input read length | UNIQUE READS: Uniquely mapped reads number | Uniquely mapped reads % | Average mapped length | Number of splices: Total | Number of splices: Annotated (sjdb) | Number of splices: GT/AG | Number of splices: GC/AG | Number of splices: AT/AC | Number of splices: Non-canonical | Mismatch rate per base, % | Deletion rate per base | Deletion average length | Insertion rate per base | Insertion average length | MULTI-MAPPING READS: Number of reads mapped to multiple loci | % of reads mapped to multiple loci | Number of reads mapped to too many loci | % of reads mapped to too many loci | UNMAPPED READS: Number of reads unmapped: too many mismatches | % of reads unmapped: too many mismatches | Number of reads unmapped: too short | % of reads unmapped: too short | Number of reads unmapped: other | % of reads unmapped: other | CHIMERIC READS: Number of chimeric reads | % of chimeric reads | ファイルの中⾝ 295 9938499 90.50% 293.11 ゲノム配列がしっかりしてると 13872226 13152511 だいたいどの⽣物でもこれくらい 13787197 (80%後半以上) 61166 1620 22243 0.52% 0.03% 2.60 0.03% 2.03 <Prefix>_Aligned.sortedByCoord.out.bam 【重要】どのリードがゲノムのどの場所にマッピング されたかを⽰す情報(IGV でマッピング結果 を可視化するときに使う) <Prefix>_Log.final.out 【重要】最終的なマッピング結果の統計量 <Prefix>_Log.out <Prefix>_Log.progress.out マッピングのログ マッピングしてるときのログ <Prefix>_ReadsPerGene.out.tab 【重要】遺伝⼦ごとにマッピングしたリードを 314950 カウントした結果 2.87% <Prefix>_SJ.out.tab スプライスジャンクションに関する情報 0.35% 37969 0 0.00% 607775 5.53% 82677 0.75% 0 0.00%
マッピング結果の確認 使⽤するソフトウェア︓STAR(2.7.9a) --outFileNamePrefix で指定したディレクトリに以下のファイルができます 左から ファイル名 ・遺伝⼦ ID ファイルの中⾝ ・ストランド⾮特異的 mRNA-Seq のカウント 【重要】どのリードがゲノムのどの場所にマッピング <Prefix>_Aligned.sortedByCoord.out.bam ・ストランド特異的 mRNA-Seq のカウント(1st read strand) されたかを⽰す情報(IGV でマッピング結果 を可視化するときに使う) ・ストランド特異的 mRNA-Seq のカウント(2nd read strand) <Prefix>_Log.final.out <Prefix>_Log.out <Prefix>_Log.progress.out <Prefix>_ReadsPerGene.out.tab <Prefix>_SJ.out.tab 【重要】最終的なマッピング結果の統計量 ubuntu@ubuntu-man$ head C1_ReadsPerGene.out.tab N_unmapped 728530 728530 728530 N_multimapping 314950 314950 314950 N_noFeature 770179 5286332 5307589 N_ambiguous 206784 45629 48143 ENSOJAG00000000068 0 0 0 ENSOJAG00000000073 2 2 0 ENSOJAG00000000082 0 0 0 ENSOJAG00000000089 0 0 0 ENSOJAG00000000092 2 2 0 ENSOJAG00000000110 0 0 0 マッピングのログ マッピングしてるときのログ 【重要】遺伝⼦ごとにマッピングしたリードを カウントした結果 スプライスジャンクションに関する情報 今回の mRNA-Seq はストランド⾮特異的なので この列のカウントデータを使って発現量解析をする というわけで、全サンプルのマッピングを For ⽂でぶん回してください
For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂ For⽂
発現量解析⽤ カウントデータの作成 STAR
発現量解析⽤カウントデータの作成 使⽤するソフトウェア︓STAR(2.7.9a) 全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す
発現量解析⽤カウントデータの作成 使⽤するソフトウェア︓STAR(2.7.9a) 全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す ⼆⾏⽬︓サンプル名のファイルを作成する(上記の作業では各列のサンプル名が分からなくなるため) 三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する
発現量解析⽤カウントデータの作成 使⽤するソフトウェア︓STAR(2.7.9a) 全サンプルのマッピングが終わったら cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 C1_ReadsPerGene.out.tab > gene_ids.tsv 2 C1_ReadsPerGene.out.tab > C1.tsv の使い⽅はぐぐってもらうとして、、、 2 vi C2_ReadsPerGene.out.tab > C2.tsv 2 C3_ReadsPerGene.out.tab > C3.tsv サンプル名の順番を間違えないように gene_id C1 C2 C3 CP1 CP2 CP3 ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す ”count_data.tsv" [New File] 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す ⼆⾏⽬︓サンプル名のファイルを作成する(上記の作業では各列のサンプル名が分からなくなるため) 三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する
発現量解析⽤カウントデータの作成 使⽤するソフトウェア︓STAR(2.7.9a) 全サンプルのマッピングが終わったら がちゃがちゃ書きましたが、もっと簡単な⽅法があります cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります 宿&題 ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv 考えてみてください ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す ⼆⾏⽬︓サンプル名のファイルを作成する(上記の作業では各列のサンプル名が分からなくなるため) 三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する
発現量解析⽤カウントデータの作成 答え 使⽤するソフトウェア︓STAR(2.7.9a) そんなに⼤きなデータじゃないので 全サンプルのマッピングが終わったら それぞれのカウントデータを⾃分のパソコンにもってきて cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります エクセルで ぱっぱっぱと コピペ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す していけば良いですね ⼆⾏⽬︓サンプル名のファイルを作成する(上記の作業では各列のサンプル名が分からなくなるため) 三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する
発現量解析⽤カウントデータの作成 答え 使⽤するソフトウェア︓STAR(2.7.9a) そんなに⼤きなデータじゃないので 全サンプルのマッピングが終わったら それぞれのカウントデータを⾃分のパソコンにもってきて cut とリダイレクション、paste を使って発現量解析⽤のデータセット(カウントデータ)を作ります エクセルで ぱっぱっぱと コピペ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ ubuntu@ubuntu-man$ : : cut cut cut cut –f –f –f –f 1 2 2 2 C1_ReadsPerGene.out.tab C1_ReadsPerGene.out.tab C2_ReadsPerGene.out.tab C3_ReadsPerGene.out.tab > > > > gene_ids.tsv C1.tsv C2.tsv C3.tsv ⼀⾏⽬︓STAR が吐き出したサンプル C1 のカウントデータから⼀列⽬(遺伝⼦ ID)を gene_ids.tsv(タブ 区切りファイル)というファイルに書き出す ⼆⾏⽬︓サンプル C1 のカウントデータを C1.tsv というファイルに書き出す 三⾏⽬︓サンプル C2 のカウントデータを C2.tsv というファイルに書き出す 四⾏⽬︓サンプル C3 のカウントデータを C3.tsv というファイルに書き出す コマンドでの実⾏に こだわりちらかす必要は ⼀⾏⽬︓gene_ids.tsv と各サンプルのカウントデータを結合して count.tsv に書き出す ありません していけば良いですね ubuntu@ubuntu-man$ paste gene_ids.tsv C1.tsv C2.tsv C3.tsv > count.tsv ubuntu@ubuntu-man$ vi count_data.tsv ubuntu@ubuntu-man$ cat count.tsv >> count_data.tsv ⼆⾏⽬︓サンプル名のファイルを作成する(上記の作業では各列のサンプル名が分からなくなるため) 三⾏⽬︓count.tsv を count_data.tsv に追記して解析⽤のデータセットを作成する