Genome de novo assembly

 인간뿐만 아니라 동물, 식물, 미생물의 연구에서 표준유전체(reference genome)의 확보 및 완성을 목표로 하는 de novo assembly가 활발하게 시도되고 있습니다.

 씨더스에서는 genome size가 작은 생물의 de novo assembly를 통해 축적한 기술적 노하우를 바탕으로 large genome size가 예측되는 생물의 de novo assembly 기술을 개선하여 높은 수준의 genome을 확보하기 위해, 특별히 ultra density genetic map, 근연종과의 synteny를 이용한 chromosome assembly 등을 통해 활용 범위를 넓히고자 노력하고 있습니다.

Genome de novo Assembly 전략

 Genome de novo assembly를 위해 여러 크기의 sequencing library를 활용할 뿐만 아니라 다양한 tool의 특징 및 장점들을 조합해 완성도 있는 assembly를 수행합니다. 이에 씨더스만의 기술적 노하우와 검증과정을 더한 전략으로 scaffolds를 작성합니다.

Assembly 분석 사례

 씨더스는 예측된 genome size가 작은 박테리아로부터 large genome의 작물에 이르기까지 다양한 생물종의 genome de novo assembly에 참여하여 기술적 노하우를 축적해왔습니다.

Assembled Scaffolds Validation

 씨더스만의 노하우가 담긴 assembly 검증과정을 통해 정확도와 신뢰도가 높은 scaffolds를 작성합니다.

씨더스의 차별화 된 De novo assembly 결과

 Cyanobacteria의 sequencing data는 Illumina HiSeq 플랫폼으로 생산된 short reads이며, quality trimming 후, assembly와 scaffolding 과정을 거칩니다.  각 과정에서 씨더스만의 검증과정과 노하우로 정확도와 신뢰도가 높은 configs 및 scaffolds를 생성합니다.
최종 생성한 scaffold를 기반으로 gene prediction 및 annotation을 수행하고, genome 정보를 웹 브라우저로 구현해 드립니다.
아래 표는 2014년부터 2012년까지 공개된 Cyanobacteria의 genome assembly 결과입니다.

 저희 씨더스는 Illumina 플랫폼의 short reads로 de novo assembly를 수행하여 3종의 cyanobacteria genome을 형성하였습니다.
이는 해외 우수 기관에서 수행된 cyanobacteria의 de novo assembly 결과와 비교했을 때, Illumina short reads 재료를 사용함에도 불구하고 씨더스의 기술력이 매우 우수함을 알 수 있습니다.

Transcriptome de novo assembly

- Illumina platform을 이용하여 가격절감

- 저비용 고품질의 Full-length rich gene set 확보


 고품질의 표준 유전자 세트를 확보하는 것은 생물의 기능연구 수행에 매우 중요합니다. 고품질의 표준 유전자 세트를 구축하기 위해서는 transcripts의 assembly의 정확도가 높고, full-length transcript의 비율이 높아야 합니다. 최근 NGS의 발달은 새로운 가능성을 제시하였고, 대부분 기준의 454 FLX를 이용하여 high-quality assembly가 진행되고 있습니다.
 그러나 씨더스는 Illumina short reads를 이용하여 표준 유전체의 유무에 상관없이 genome과의 일치비율(정확도)과 full-length 비율이 높은(de novo) Transcript Assembly를 수행하여 비용을 획기적으로 낮추면서 수준 높은 표준 유전자 세트를 작성해드립니다.

 표준유전체가 없는 양배추의 경우에도 Arabidopsis와 유사하게 1~2kb 길이에 대부분의 full-length transcript가 분포함을 알 수 있습니다.
애기장대와 양배추의 assembly 결과는 이미 보도된 유칼립투스(Illumina sequencing)와 제브라피시(Roche 454 sequencing)의 transcriptome assembly 를 통해 얻어진 full length transcripts 6,208(39.5%), 9,625(26%)보다 더 향상된 수준입니다.
 저희 씨더스는 본 연구에서 수행된 방법론을 다른 작물의 transcriptome assembly에 적용하여 표준유전체의 유무에 상관없이 보다 향상된 고품질 표준 유전자 세트를 구축하여 드립니다.

분자마커 개발(SNP, SSR, In/Del)

 Resequencing은 모델 종의 Whole genome sequence가 알려져 있을 때, 근연종의 개체를 시퀀싱하는 것입니다. Resequencing된 개체나 집단의 염기 서열의 비교를 통해, 분자육종 또는 응용에 필요한 많은 유전적인 변이를 발견할 수 있습니다.
 Genome-wide SNP(Single Nucleotide polymorphism)은 reference를 기준으로 개체마다 차이를 보이는 단일염기의 변이(다형성)로 이를 유전체 수준에서 발굴합니다. NGS short reads data를 Reference genome에 mapping하여 candidate SNPs를 찾고, consensus sequence를 얻어 해석합니다.


정확도가 높은 SNP의 추출에 관한 씨더스의 노하우

현재 시중에는 SNP를 찾아내는 여러 종류의 프로그램이 존재합니다. 그러나 정확도는 매우 다양합니다. 저희는 수백 개체의 교배집단 혹은 유전자원들을 resequencing 하고, Genome-wide SNP를 찾아 분석하는 과정을 거치면서 Illumina platform에 최적화된 SNP 추출 프로그램을 선발하고 개선하여 최적화 시켰습니다.


SNP application 예시

 표준 유전체 정보가 밝혀지고 NGS(Next Generation Sequencing)를 이용한 대용량 시퀀스 생산이 가속화되면서 유전체 기반의 분자육종은 종자시장 및 육종산업에 새로운 동력으로 각광받고 있습니다. 분자육종은 원하는 형질의 유무를 형질에서 유래한 표현형의 관찰 없이 DNA 염기서열의 차이를 보이는 분자마커(molecular marker)를 이용해 판별하는 기법입니다.
 따라서 실질적으로 육종 소재에 적용 가능한 마커, 형질 관련 마커 등 분자마커 set 개발이 매우 중요합니다. 최근에는 이를 이용한 정밀육종(precision breeding)이 시도 되고 있습니다.

 가장 대표적인 분자마커 중의 하나인 SNP(Single Nucleotide Polymorphisms)는 DNA 서열에서 일어나는 단일 염기의 변이로 유전체 전체적으로 가장 빈번하게 나타나며 안정적으로 이용할 수 있는 장점이 있습니다. 이에 따라 최근 여러 작물에서 NGS를 통해 해독된 유전체 정보를 기반으로 한 genome-wide SNP 발굴로 대량의 분자마커를 빠르게 확보하고 있습니다.
 또한 SNP는 in silico 분석을 통해 농업적으로 중요한 유전자를 확인할 수 있는 유용한 MAB 마커로 사용되는 등 응용 범위가 확대되고 있습니다.

SNP 분자마커 개발 전략


SNP 분자마커 Application


유용유전자발굴(DEG)

 특정조건이나 처리구에 따른 유전자 발현양상을 분석하게 됩니다. 확보된 유전자만 분석이 가능했던 기존의 microarray를 대체하고 있는 추세입니다. DEG분석으로 발현되는 모든 유전자를 확보할 수 있고, 이를 통해 유전자의 sequence를 얻을 수 있습니다.
 또한 multi-gene간에도 발현량을 구분할 수 있어 NGS를 이용한 DEG분석은 계속 증가하고 있습니다.

Work flow



DEG 분석내용

Normalization
특정 유전자가 그 조직에서 얼마만큼의 발현이 이루어졌는지, 특정 유전자의 reads 개수를 전체 reads 개수로 나눠 비율을 통해 보정하는 정규화 방식

2-Fold Change
유의한 유전자(DEG)를 선별하기 위하여 적어도 2배 이상 발현의 차이가 나는 유전자를 선별하는 방법

t-Test
3번의 반복실험을 토대로 각 반복에서 나타난 유전자의 발현분포의 차이가 통계적으로 차이가 발생하는지 확인하는 방법

Gene Set Enrichment Analysis(GSEA)
통계적 기법을 이용하여 GO group에 유의적인 경향성을 보이는 유전자군을 선발하는 기법
Assembly 단계 : 보고된 reference genome이 있으면 생략 가능.

  분석결과

처리구의 read 간 비교 :
시퀀싱된 transcriptome 데이터 간에 차이가 발생하는지, 관련성은 얼마나 되는지를 확인하기 위해서 pairs plot(상관관계 그래프)을 생성 후 제공합니다.
유의한 유전자 선별 :
2-Fold Change 방법을 이용하여 각 실험별 유의한 유전자를 선별하여 제공합니다.


Clustering 결과

유의하게 발현된 유전자들(DEGs)을 발현 패턴 별로 묶어 증가/감소 패턴을 HeatMap을 통해 제공합니다. 이후 각 cluster에 속한 유전자를 확인하고 기능을 분석합니다.


유전자 기능분석

유의하게 발현된 유전자들(DEGs)에 존재하는 유전자의 서열을 내려받아 KEGG에 존재하는 모든 식물의 pathway 위의 gene과 alignment를 수행하고 이를 기반으로 functional category를 수행합니다. 확인하고 기능을 분석합니다.


Alternative Splicing Analysis

 Alternative Splicing은 한 유전자에서 서로 다른 mRNA가 만들어 지고 다른 단백질을 합성하는 현상입니다.
NGS를 통해 생산된 대용량의 sequence 정보는 AS 연구의 새로운 기회를 제공하고 있습니다.
동물에서 뿐만 아니라 식물에서도 매우 높은 빈도의 AS 형태가 보고되고 있으며, 씨더스에서는 보다 상세한 AS분석을 위해 새로운 방법들을 끊임없이 개발하고 있습니다.

Alternative Splicing type


Reference genome에 short reads를 align한 결과(exon-intron junction)



실 분석에서의 Alternative Splicing 종류


SEEDERS pipeline에 의해 예측된 AS 분석 결과 제공 형태


Ultra-density genetic map

 차세대 시퀸싱(NGS)의 비용이 저렴해지면서 교배집단 전체를 시퀀싱하고, 이를 기반으로 한 시퀀스 수준에서의 genotyping이 활발히 이루어지고 있습니다. 이는 기존의 genetic map과는 다르게 수십만개의 마커를 포함하는 초고밀도 genetice map 작성을 목표로 합니다. 이를 통하여 recombination break point등의 유전 양상을 이해할 수 있어 여러 연구에 응용할 수 있습니다.

 Genetic map을 만들기 위해서는 F2, BC, RIL, DH등 목적에 따라 다양한 집단이 이용되고 있습니다. F2, BC집단은 작성이 단순하고 소요시간이 짧지만 heterozygous한 상태로 임시적인 집단입니다. RIL, DH, NIL은 영속적 집단으로 취급하는데 이는 homozygous하기 때문에 유전적으로 고정된 종자로 증식, 보관이 가능합니다.

 준비된 교배집단을 Multiplexed sequencing 방식을 이용하여 집단전체의 시퀀스를 확보합니다. 시퀸스 기반의 genotyping을 통해 matrix를 작성하고 Ultra-density genetic map을 작성합니다.

Work Flow

분석과정 및 결과

 Low depth로 시퀀싱이 된 경우, 각 개체별 결손되는 SNP가 많이 발생됩니다. 이러한 문제점을 해결하기 위해 알고리즘 개선 및 새로운 프로그램의 개발을 통해 linkage map용 matrix를 획기적으로 개선시킴으로써 high-quality genetic map을 작성 할 수 있습니다.

  • 100,000 ~ 1,000,000 SNPs 확보가능
  • Genomic contig 혹은 scaffold의 순서를 정할 수 있음
  • 농업적으로 중요한 유전자 fine mapping & cloning
  • 정밀한 지도로 정확한 QTL mapping 가능
  • Recombination Break Point를 확인
  • Bin map 확보

LD분석

 유전자간의 거리가 가까워 독립적인 recombination의 형태를 보이지 않는 경우, 유전자가 기대치 이상으로 연관되어 나타나는데, 이를 LD(Linkage Disequilibrium, 연결 불균형)라 합니다. LD는 특정 형질을 나타내는 유전자와 함께 움직이는 분자마커(SNP)를 사용하여 recombination되는 수치를 계산한 후, 연관된 정도를 파악하고 유전자간 상대적인 거리를 예측하여 분석합니다. LD 분석을 바탕으로 linkage dragging을 해결할 수 있고, 또한 특정 형질 유전자의 위치가 대략적으로 추정되면, 그 영역이 특정 형질 유전자의 발현에 실제 관여하는지를 실험으로 검증할 수 있습니다.

Work Flow

분석결과

  • - LD plot을 생성하여 연관 불균형 패턴을 시각화 할 수 있음 (표의 기준에 따라 생성됨)
  • - Gabriel et al. 알고리즘을 사용하여 연관 불균형을 이루는 부분을 LD block으로 생성
  • - SNP 정보를 이용해 LD block을 chromosome상 위치로 표현할 수 있음
  • - LD block내에 분포된 gene을 확인할 수 있음

Comparative genomics

 Plant tree 상에서 가까운 종의 식물 genome은 gene content와 gene order가 잘 보존되어 있습니다. 동일한 gene content가 유사한 gene order을 가지고 있는 영역을 Syntenic region이라 하는데, Synteny analysis을 통하여 Whole genome duplication, genome rearrangement등을 예측할 수 있습니다.

 Genetic map을 만들기 위해서는 F2, BC, RIL, DH등 목적에 따라 다양한 집단이 이용되고 있습니다. F2, BC집단은 작성이 단순하고 소요시간이 짧지만 heterozygous한 상태로 임시적인 집단입니다. RIL, DH, NIL은 영속적 집단으로 취급하는데 이는 homozygous하기 때문에 유전적으로 고정된 종자로 증식, 보관이 가능합니다.

Work Flow

 Synteny 분석을 위해서는 분석하고자 하는 genome과 비교대상을 찾아야 합니다. 비교대상은 근연관계 tree에서 근접 정도, genome duplication의 유무, 선행연구결과의 정도에 따라 선정합니다. 이를 통하여 genome 수준에서 구조적 차이를 이해할 수 있습니다.

  • Genetic map에 의해 위치화하지 못한 config 혹은 scaffold를 위치화 할 수 있음
  • 농업적으로 중요한 유전자의 위치를 확인할 수 있음
  • Recombination Break Point를 확인
  • Genome의 변화과정을 예측가능

목적별 Database 구축

 씨더스는 데이터 분석결과를 차별화된 방법으로 해석하고 정리하여 기존의 수치 위주의 결과가 아닌 이해하기 쉬운 즉 시각작인 웹 인터페이스를 구현하여 정보를 서로 공유하거나 소통할 수 있도록 해드리고 있습니다.

분자마커 활성화를 위한 Database

 먼저는 작물의 유전체 정보를 효율적으로 활용할 수 있도록 해석하여 제공하는 웹 인터페이스를 제공하고 있습니다. 특별히 유전체 정보와 형질 관련 유용유전자를 제공함으로써 MAS (marker-assisted selection)와 MAB (marker-assisted backcrossing) 확립에 필요한 다양한 정보를 제공합니다. 이러한 결과는 유전체 정보와 육종 간의 상호 소통 및 활용이 원활하도록 지원하는 가교역활을 수행할 것으로 기대하고 있습니다.

(예) TGSOL(Translational Genomics for Solanaceae;http://tgsol.seeders.co.kr)

 TGSol은 가지과 작물의 유전체 정보를 육종분야에서 활용할 수 있도록 해석하여 제공하는 특화된 웹 인터페이스입니다. 토마토, 감자 등 가지과 작물의 유전체 정보를 이용하여 GAB(Genome Assisted Breeding)를 지원하는 웹 인터페이스를 구축하는 것을 목표로 하고 있습니다.
 MAB(Marker-Assisted Backcrossing), MAS(Marker-Assisted Selection), Genome browser, Comparative analysis, Tools(blast 등)을 다룰 수 있는 메뉴가 제공되고, 목표형질인 병 저항성, 과실발달, 유용 대사산물의 공개된 문헌정보를 수집/가공한 데이터 기반의 Marker 검색도구가 제공됩니다.
※ 농촌진흥청 차세대 바이오그린21사업(과제번호:PJ009063)의 지원에 의해 이루어진 것임.

Genome 해석용 Database

(예) Cyanobacteria의 genome browser

새로운 Genome이 완성되면 유전체 정보를 활용할 수 있도록 genome을 해석한 interface를 제공합니다.
제공되는 데이터는 다음과 같습니다.

  • - De novo assembly를 통해 생산한 Genome browser
  • - 생성한 scaffold를 기반으로 예측된 gene, protein sequence
  • - 다양한 database와의 annotaion을 통해 얻은 정보
  • - GO(Gene Ontology), KEGG(EC number)정보
  • - GC contents 비율

Integrated Omics Database

최근 NGS를 포함한 Transcriptome + Metabolome 과 같은 다양한 omics 데이터가 축적되고 있습니다. 이들 정보를 통합하고 활용도를 증진하기 위한 DB를 구축하여 드립니다.