초록 |
Bioinformatics 분야 중에서 DNA chip을 이용하여 유전자의 발현 양 변화를 분석하는 방법이 최근 급속도로 많이 연구가 되고 있다. 특히 DNA chip을 사용하여 특정 암의 유전자 발현 양의 변화를 관찰하고, 이를 기준으로 분류하고 진단하는 방법이 개발되고 있다. 이러한 연구들은 과거의 조직학적 형태를 통해서도 구별하기 어려웠던 암의 분류 뿐만 아니라, 전이 단계의 구분과, 가능한 drug target까지 알려 주는 매우 효율적인 방법이다. 일반적으로 DNA chip을 통해서 특정 암의 유전자 발현 양의 변화를 분석할 때, 여러 통계적인 처리를 수행한다. 현재 개발된 방법으로는 Self Organizing Map (SOM)과 같은 Artificial Neural Network (ANN) 방법과 Nearest Neighbor Classifier (NNC)와 같은 Clustering 기법 등이 있다. 하지만 이러한 Black Box 모델들은 특정 암의 특징을 결정하는 주요한 유전자 (drug target)들과 유전자와 이들 간의 관계를 찾아 내기가 어렵다. 또한 Misclassification Cost(MC)와 Prior Probability (PP)를 고려 하지 못하는 한계가 있다. 따라서 본 연구에서는 DNA chip을 통한 암의 분류와 진단 방법에 있어서 새로운 Data Mining 기술을 제안한다. 이 방법은 Principal Component Analysis (PCA), Bayesian Decision Theory (BDT) , Stepwise Discriminant Analysis (SDA)등으로 구성되어 있다. 이들 방법을 이용하여 Small, Round Blue Cell Tumor (SRBCT)를 Neuroblastoma (NB), Rhabdomyosarcoma (RMS), nonHodgkin lymphoma (NHL), Ewing (EW)로 분류하는 classifier를 만들고, 각 암에 주요한 영향을 주는 유전자들에 대해서 분류를 하였다. 본 연구에서 새롭게 제안한 분류 방법은 PCA를 통해 classification power를 유지하면서 high-dimension 문제와 multicolinearity 문제를 해결하였다. 그리고 최적의 discriminant를 위한 변수의 선정을 하는 SDA를 적용 하였고, 이 방법을 통해 특정 암의 고유한 특징을 나타내는 데 관여하는 16개의 PC축을 선택 할 수가 있었다. 한편 BDT에서 고려 할 수 있는 MC의 경우 본 연구에서 사용된 4가지 암 모두가 동일하다고 가정을 하였다. 하지만 각 암에 classification을 잘못 함으로써 생기는 비용은 틀리다. 또한 PP의 경우 발병확률 또한 성별, 인종에 따라서 매우 틀리다. 즉 모집단의 확률을 DNA chip 실험 시 이러한 점을 고려하여 sampling을 하지 않았다면, 여러 통계적인 기법을 사용하여 모집단의 PP를 미리 구해야 한다. 본 연구에서는 이러한 확률을 암 환자 sampling시에 고려하였다고 가정을 하였다. 그리고 loading plot상에서 clustering을 함으로써 유전자들 간의 상호 관계를 알 수도 있다. Clustering 결과 200개의 cluster 중에서 한 개 cluster에 속한 gene들이 가지는 Ras activated Serine/threonine Phosphorylation Cascade Pathway를 보였다. 이러한 상호관계를 통해 암의 분류뿐만 아니라 암세포에서 특정 pathway를 재구성 할 수도 있다. 이러한 pathway 재구성이나 각 유전자의 특징을 통해 새로운 oncogene, drug target, cancer pathway를 구축하는데 기초가 될 수가 있다. 그리고 이러한 방법은 암세포 DNA chip data 뿐만 아니라 다른 DNA chip data 분석에도 적용을 할 수가 있다. 하지만 cluster에 속한 gene들의 상호 관계는 궁극적으로는 여러 다른 분석 방법과 그 결과에 바탕을 둔 실험으로 재 확인을 해보아야 한다. |