Q&A

기타문의사항에 대해
빠르게 대응해 드리겠습니다.

Q&A

sequencing 데이터의 압축해제 프로그램 추천과 데이터 열람 방법

페이지 정보

작성자 최고관리자 작성일14-09-11 19:12 조회2,998회 댓글0건

본문

압축해제 프로그램
NGS sequencing 데이터의 경우 일반적으로 gz로 압축이 되어 있으며, 이는 어떤 압축 해제 프로그램에서도 잘 열리는 압축 형식입니다. 압축을 하는 와중에 깨지는 경우가 없다면 어떤 프로그램을 사용하셔도 될 것 같습니다. 그러나 압축 프로그램을 가지고 있지 않을 경우를 위해 아래의 프로그램들을 추천 드립니다. 아래의 프로그램은 기관과 학교 모두에서 프리 라이센스이기 때문에 어느 곳에서 사용하셔도 되며, 성능도 일반적으로 많이 사용하시는 알ZIP보다 우수하다고 생각됩니다.
 
 
 
 
데이터 확인 방법
NGS sequencing 데이터의 경우 파일의 용량이 Giga byte 단위이기 때문에 Microsoft windows에서 파일의 내용을 열어보시기는 힘듭니다. 보통 Linux 운영체제의 terminal에서 less나 more 명령어로 살펴 볼 수 있는데, 꼭 MS 윈도우여야 한다면 “명령 프롬프트”를 통한 more 명령어로 확인하는 것이 가능합니다.
 
more 명령어를 사용하기 위해서는 MS 윈도우의 명령 프롬프틀를 실행하셔야 합니다. 화면의 왼쪽 아래에 있는 “시작 버튼 >> 모든 프로그램 >> 보조 프로그램 >> 명령 프롬프트”순으로 클릭하시면 명령 프롬프트 창을 열 수 있습니다.
 
먼저 하실 것은 명령 프롬프트에서 fastq 데이터가 있는 위치로 이동해야 합니다. 이동을 위해서는 드라이브간에 이동은 D: 또는 E:라는 명령어를 사용하고, 폴더간의 이동은 cd라는 명령어를 사용합니다.
 
 
위의 그림은 예를 들기 위해 넣은 그림입니다. 먼저 Z: 드라이브로 이동하고, 데이터가 있는 Downloads라는 폴더로 이동하는 것을 보이고 있는 그림입니다. 아래의 명령어를 통해 이동하실 수 있습니다.
 
예제 명령어
> Z:
> cd \Users\myname\Downloads
 
디스크 드라이브의 이동에서 저는 예로 Z:를 들었으나 만약 D 드라이브로 이동하신다면 “D:”, E 드라이브로 이동하신다면 “E:"라고 입력하셔야 합니다.
폴더간의 이동을 간편히 하는 방법으로는 Window 탐색기의 주소 표시줄에 나타난 주소를 복사하여 명령 프롬프트에 붙여넣기하는 방법이 편합니다.
 
이동을 완료하고 난 후에 more 명령어를 사용하여 파일을 열어볼 수 있습니다.
 
 
예제 명령어
> more my_fastq_data_name.fastq
 
위의 more 명령어를 통해 fastq 파일의 내부를 관찰할 수 있으며, 보통 아래와 같은 형태로 나타납니다.
 
 
fastq 데이터는 4개의 요소가 반복적으로 나타나는 형태로 구성되어 있는데, 1) Read ID, 2) Read Sequence, 3) Plus Symbol, 4) Quality of sequence of read의 순입니다. 이러한 데이터가 read의 수 만큼 나타나며 예를 들어 TN1407R1689-TN1407R1765_GTGAAA_R1.fastq 데이터 파일의 29,531,828개의 read가 포함되어 있습니다.
 
more 명령어에서 다음 페이지로 이동하기 위해서는 키보드의 SPACE 버튼을 누르시면 되며, 이전 페이지로 돌아가는 것은 Linux 운영체제에서는 가능하나 MS 윈도우에서는 불가능합니다.

댓글목록

등록된 댓글이 없습니다.