Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
구조-활성의 정량적 관계
구조-활성의 정량적 관계 (Quantitative structure–activity relationship, QSAR)모델은 화학, 생물학, 공학에서 사용되는 회귀 또는 분류모델로, 화학구조와 예측하고자 하는 활성 간의 정량적인 수학적 모델을 말한다. QSAR 회귀모델은 수치형태의 반응변수(Y), QSAR 분류모델은 범주형태의 반응변수와 예측변수(X)의 관계를 나타낸 것이다. QSAR 모델링에서 예측변수는 물리화학적 특성값이나, 이론적으로 계산하는 분자 표현자를 사용하며, 반응변수는 화합물의 생물학적 활성값이 사용될 수 있다. 먼저 QSAR모델을 통해서 화학구조와 생물학적 활성과의 관계를 나타내고, 그 다음에는 QSAR모델을 이용하여 새로운 화합물의 활성을 예측한다.
관련된 용어로 구조-물성의 정량적 관계 (QSPR)이 있으며, 반응변수로 화학적 물성을 사용하는 것이며, 다양한 화학분자의 물성이나 거동 등이 QSPR분야에서 연구되고 있다. 이러한 예로서 "구조-반응성의 정량적 관계(QSRRs), 구조-크로마토그래피의 정량적 관계(QSCRs), 구조-독성의 정량적 관계(QSTRs), 구조–전기화학의 정량적 관계(QSERs), 구조–생분해성의 정량적 관계(QSBRs)"등이 있다.
예를 들어 생물학적 활성은 특정 생물학적 반응을 나타내는 물질의 농도를 통해서 정량적으로 나타낼 수 있므로, 물리 화학적 특성 및 화학구조를 수치화 하면, 수학적인 관계 또는 그들간에 구조-활성의 정량적 관계를 찾을 수 있다. 수학적 관계식이 신중하게 검증되었다면, 모델을 통해서 임의의 화학구조에 대한 반응값을 예측하는데 사용될 수 있다.
QSAR은 수학적인 모델의 형태를 지니고 있다.
- 활성= f(물리화학적 물성 및/또는 화학구조의 특성) + 오차
오차는 모델 오차(바이어스)과 관측치 내의 변이를 나타내는 관측치 변이를 포함한다.
QSAR 연구에서 필수적인 단계
QSAR/QSPR의 주요 단계는 (1) 데이터군의 선택과 구조 및 경험적 표현자 추출, (2) 변수선택 (3) 모델구현 (4) 평가검증을 포함한다.
SAR과 SAR 역설
모든 분자의 기본적인 가정은 유사한 분자는 유사한 활성을 지닌다는 가정에 기초하며, 이러한 원리를 소위 구조-활성 관계(SAR)이라고 부른다. 근본적인 문제는 분자 수준에서의 작은 차이를 어떻게 나타낼 것인가 하는 것이다. 그것은 생물학적 활성의 각각 종류, 예를 들어, 반응성, 생체 변환성, 가용성, 타겟 활성 등은 이러한 작은 차이에 따라 달라지기 때문이다. 좋은 예들은 Patanie/LaVoice와 Brown 가 쓴 bioisosterism리뷰에 잘 나타나 있다.
일반적으로, 강한 경향성을 찾는 것에 더 많은 관심을 갖는다. 세워진 가설은 언제나 유한한 화학적 데이터의 수에 의존한다. 따라서, 과적합된 가설을 피하고, 구조/분자 데이터를 해석할 수 없거나, 과적합한 해석으로 유도되는 것을 막기 위하여 귀납법을 존중해야 한다.
이 SAR 역설은 모든 유사한 분자는 유사한 활성을 지니지 않는 경우가 있다는 사실에 근거한다.
종류
조각기반 (그룹 기여도)
유사하게, "분배 계수"— 용해도 차이 측정, 그리고 그 자체가 QSAR예측의 예측변수로 사용—는 원자화 기법("XLogP"나 "ALogP"로 알려짐)이나 화학 조각기법("CLogP"와 기타 변형된 형태로 알려짐)을 통해서 예측될 수 있다. 화합물의 logP는 각 조각들의 합으로 결정할 수 있다고 알려져 있고, 조각기반 기법이 원자화 기법보다 예측이 우수하다고 받아 들려지고 있다. 조각의 기여값은 알려진 실험값 logP 데이터를 기반으로 통계적으로 결정된다. 이 방법은 혼합된 결과를 주며, 일반적으로 ±0.1 단위 이상의 정확도를 갖는 것을 신뢰하지는 않는다.
그룹 또는 조각기반 QSAR은 또한 GQSAR로 알려져 있다. GQSAR은 생물학적 반응 변화와 관련된 다양한 분자조각을 연구하는데 융통성을 제공해준다. 분자조각은 동종 분자에서 다양한 치환체 위치로 치환될 수 있고, 이종 분자들의 경우 미리 설정한 화학적 규칙에 기반이 될 수 있다. GQSAR은 또한 활성변화를 결정짓는 핵심 조각들의 상호작용을 확인하는데 도움이 되는 교차항목의 조각 표현자를 고려할 수 있다. 조각체(Fragnomics)를 이용한 선도물질개발은 뜨고 있는 페러다임이다. 이 글에서 조각기반-QSAR가 조각 라이브러리 설계와 조각부터 선도물질 확인까지 중요한 전략임을 증명하고 있다.
약물작용 발생단(pharmacophore)의 개념을 기초로한 진보된 조각/그룹 기반 QSAR로 발전하고 있다. 이 방법, 즉 약물작용 발생단의 유사성 기반 QSAR(PS-QSAR)방법은 QSAR모델을 개발하기 위하여 위상 약물작용 발생단 표현자를 사용한다. 이를 이용한 활성 예측은 약효가 개선되거나 불리한 효과에 대하여 개별 조각들의 기여를 통해서 특정 약물작용발생단의 특징을 알아내는데 도움을 줄 수 있다.
3D-QSAR
3D-QSAR은 약효가 알려진 작은 분자들의 군(훈련 데이터)에 대하여 역장(force field) 계산을 한다. 훈련 화합물 군은 실험데이터(예: 리간드-단백질 기반 결정학 데이터)에 의하거나 분자 중첩 소프트웨어등을 통해서 화합물들을 겹칠 필요가 있다. 이 방법은 단일 치환체보다는 분자 전체와 관련이 있으며, 실험 상수보다는 계산된 퍼텐셜(예를 들어 Lennard-Jones 퍼텐셜)을 사용된다. 3-D QSAR은 비교 분자장 분석(Comparative Molecular Field Analysis, CoMFA)이라는 이름으로 Cramer와 연구자들에 의해 처음 시작되었다. 이 방법은 입체장(분자의 모양을 나타냄)과 정전기장을 계산하여 사용하였으며, 부분 최소제곱 회귀방법(PLS)으로 상관관계를 나타내었다..
계산된 퍼센셜 값들은 특징 추출(또는 차원 축소)과정을 통해서 줄인다. 이 방법은 기계 학습 방법(예를 들어 서포트 벡터 머신방법)에서 사용되는 것들이다. 변수를 줄이는 다른 방법은 분자에 대하여 분자의 3차원 회전배열 각각을 데이터 예로 나타내는 다중-예 학습(multiple-instance learning)을 사용하는 것이다. 반응값(활성값)은 데이터 셋에서 적어도 한가지 이상(즉 분자들의 일부 회전배열들)에서 얻은 분자에 해당 활성값을 설정한다.
2011년 6월 18일로 비교 분자장 분석(CoMFA)의 특허에서 GRID와 부분 최소제곱법 기술 사용에 대한 제한이 없어졌고, 분자설계를 위한 로마센터팀(www.rcmd.it)에서는 3-D QSAR web server (www.3d-qsar.com)라는 웹사이트를 오픈했다. 최근 (2016년 8월) 3D QSAR web server는 4종의 기본 웹 프로그램을 일반인에게 오픈했다: Py-MolEdit, Py-ConfSearch, Py-Align an Py-CoMFA. Py 라는 접두어는 웹과 응용프로그램이 모두 python 언어로 개발되었다는 것을 말한다. 4종의 응용 프로그램은 알려진 생리활성값과 훈련데이터의 화학구조를 그려서 3-D QSAR model을 만들어 내도록 한다. www.3D-QSAR.com 서버는 분자 상호작용 장(molecular interactions fields, MIFs)과 3D 방식,상호작용 방식에 따라 3D-QSAR 지도를 분석하기 위한 모든 기능을 포함하고 있다.
화학 표현자 기반
이 연구에서는 다양한 분자의 전자적, 기하학적, 입체적 특성을 정량화한 표현자가 계산되며, QSAR 개발에 사용된다. 이 연구는 개별 부분조각의 특성이라기 보다는 전체 분자에서 표현자가 계산된다는 점에서 조각(그룹 기여도)방법과 차이가 있다. 또한 이 방법은 3D 장에서 계산된 값보다 스칼라값 (예를 들어 에너지, 기하학적 인자값)이 표현자로 사용된다는 면에서 3D-QSAR방법과 다르다.
이러한 연구의 예로서 반 샌드위치 화합물에 의해서 올레핀 중합반응을 위한 QSAR이 있다.
모델링
일부 문헌에서는 종종 화학자들은 특징 추출과 귀납모델 구현을 동시에 할 수 있어서 부분 최소제곱법을 선호한다는 것을 알 수 있다.
데이터 마이닝 연구
컴퓨터를 통한 SAR 모델들은 전형적으로 많은 수의 특성들을 계산할 수 있다. 구조적으로 해석 능력이 부족하게 되므로 전처리 과정에서는 특성 선택을 해야 하는 문제에 직면하게 된다(즉 구조-활성의 관계를 알기위해서 구조적 특징이 해석되어야 한다). 특성은 눈으로 직접 보면서 선택할 수도 있고, 데이터 마이닝방법이나 분자 마이닝 방법에 의해서도 선택할 수 있다.
일반적으로 예측을 기반으로 한 데이터 마이닝방법은 서포트 벡터 머신, 결정 트리, 인공신경망등이 있다.
분자 마이닝 연구, 특별히 구조화된 데이터 마이닝 연구의 경우에는 예측기반의 유사행렬이나 자동 조각 구도를 분자 부분구조(substructure)로 적용하는 것이다. 더 나아가서 최대 공통 골격구조 검색(maximum common subgraph searches) 또는 그래프 커널을 이용하는 연구도 있다.
대입된 분자쌍 분석
전형적인 QSAR 모델은 소위 블랙박스라고 불리는 비선형 기계 학습법으로부터 유도하여, 이것은 의약 화학자들에게 정보를 주지 못한다. 최근에는 대입된 분자쌍 분석(matched molecular pair analysis) 또는 활성 절벽(activity cliff)를 확인하기 위하여 QSAR모델과 짝을 지은 MMPA기반 예측이라는 상대적으로 새로운 개념들이 있다.
구조-활성의 정량적 관계 모델들의 질적 평가
QSAR 모델링은 분자 구조나 특성을 대표하는 표현자를 이용하여 화학물질(의약품/독극물/환경 오염물질)의 QSPR모델에서 물리화학적 물성 또는 생물학적 활성(치료효과와 부작용 포함)과 통계적 상관관계를 적용한 예측 모델을 만들어 낸다. QSARs은 여러 규칙(규정)에 적용된다. 예를 들면, 신약탐색과 선도물질 최적화와 더불어, 리스크 평가제도, 독성 예측, 법규 결정 양질의 QSAR 모델을 얻는 것은 입력 데이터의 품질, 표현자 선택, 모델링 및 검증을 위한 통계적 방법과 같은 많은 요소에 좌우된다. 모든 QSAR 모델링은 궁극적으로 새로운 화합물에 대하여 정확하고 신뢰도가 높은 예측값이 나타낼 수 있는 통계적으로 견고하고 예측도 높은 모델을 도출해 내야 한다.
QSAR모델을 검증하기 위해서 다양한 전략들이 채택되고 있다.
- 내부 검증 또는 교차 검증 (실제로 데이터 추출하는 동안 교차 검증은 모델 견고성을 나타내는 척도이며, 모델이 더 견고할수록(q2가 높을수록), 데이터 추출이 원래 모델을 덜 교란시킨다).
- 이용할 수 있는 데이터 셋들은 모델 개발을 위한 훈련셋과 모델의 예측정도를 점검하는 예측셋으로 나누어 외부검증을 함.
- 새로운 외부 데이터에 모델 적용을 통한 미지 외부 검증
- 모델링에 사용된 표현자들과 실험값간의 우연 상관성(chance correlation)의 여부를 확인하기 위한 데이터 무작위화 또는 Y-섞음(Y-scrambling)
QSAR모델의 성공은 입력된 데이터의 정확성, 알맞은 표현자의 선택, 개발된 모델의 검증에 따라서 좌우된다. 검증은 특별한 목적을 위해서 설정된 관련성과 신뢰도에 관한 과정이다. QSAR모델 검증은 주로 견고성과 예측성능 그리고 적용범위(applicability domain)에 대한 것이어야 한다.
일부 방법론은 문제가 있을 수 있다. 예를 들어 leave one-out 교차검증은 일반적으로 예측능력을 과대포장할 수 있다. 외부 검증을 하더라도, 세워지는 모델의 예측 능력을 최대하기 위하여 훈련셋과 테스트셋을 선택을 조절할지를 결정하는 일은 어려운 일이다.
주의를 요하는 QSAR모델 검증의 다른 측면에는 훈련셋 화합물의 선택방법, 훈련셋의 크기 설정, 예측의 질을 결정하는 훈련셋 모델을 위한 변수선택의 영향. QSAR모델의 질을 판단하기 위한 새로운 검증 인자의 개발이 또한 중요하다.
화학적 물성
역사적으로 첫번째 QSAR을 적용한 것 중 하나는 끓는점을 예측하는 것이었다.
예를 들어서 특정 화합물 군(특히 유기화학에서)에서 구조와 실험값 사이에 강한 상관관계가 있다는 것은 잘 알려져 있다. 가장 간단한 예는 알케인들의 탄소수와 끓는점과의 관계이다. 탄소수가 증가하면 끓는점이 증가하는 명확한 추세가 나타나며, 이것은 더 큰 알케인 분자의 끓는점을 예측하기 위한 수단으로 사용된다.
아직도 관심이 많은 물성은 the Hammett식, Taft식의 파라미터, pKa 예측 등이 있다.
생물학적 활성
분자의 생물학적 활성은 일반적으로 특정 신호 전달 또는 대사 경로의 억제 수준을 확인하는 분석에서 측정된다. 신약탐색에서는 종종 특정 타겟에 대하여 우수한 억제 효과를 지닐 수 있고, 독성이 낮은(비특이성 활성) 화학구조를 확인하기 위해서 QSAR을 사용한다. 특별히 많은 관심을 갖는 것은 분배계수 logP이며, 이는 Lipinski박사의 'Rule of Five'에 따라 약유사성을 확인하는데 사용되는 중요한 측정값이다.
많은 QSAR분석은 효소 또는 수용체 결합부위와 화합물 사이의 상호작용을 포함하는데, 단백질의 구조영역간의 상호작용을 연구하는데도 또한 사용될 수 있다. 단백질-단백질 상호작용은 특정 부위 돌연변이로부터 나타나는 구조적 변이에 대하여 정량적으로 분석될 수 있다.
이것은 SAR역설의 위험을 줄이기 위한 기계학습 방법의 일부분이다. 일반적으로 모든 QSAR문제는 화학구조의 수치화와 학습으로 나눌 수 있다.
응용
(Q)SAR모델은 위해성 관리에 사용되고 있는데, 유럽연합에서는 규제 당국에 의해서 제안이 된다. QSARs은 REACh 규정에 의해서도 제안되고 있는데, 여기서 "REACh"다. "Registration, Evaluation, Authorisation and Restriction of Chemicals"의 약자로 화학물질의 등록, 평가, 허가, 제한에 관한 제도를 말한다.
특정한 화합물 훈련데이터에 의해서 나타내는 화학 표현자 공간을 훈련셋의 적용범위(applicability domain)라고 한다. 적용범위 밖에 있는 신규 화합물의 물성을 예측하는 것은 외삽을 하는 것이며, 적용범위 내에서의 예측보다는 평균적으로 신뢰성이 낮다. QSAR예측의 신뢰도를 평가하는 것으로 연구주제로 남아 있다.
QSAR식은 새로운 분자의 활성을 합성하기 전에 예측할 수 있다.
QSAR모델링을 하기 위한 기계학습 도구들의 예는 다음과 같다:
번호. | 도구 이름 | 사용한 알고리즘 | 외부 연결 |
---|---|---|---|
1. | R | RF,SVM, Naïve Bayesian, and ANN | “R: The R Project for Statistical Computing”. |
2. | libSVM | SVM | “LIBSVM -- A Library for Support Vector Machines”. |
3. | Orange | RF, SVM, and Naïve Bayesian | “Orange Data Mining”. 2011년 1월 10일에 원본 문서에서 보존된 문서. 2017년 6월 14일에 확인함. |
4. | RapidMiner | SVM, RF, Naïve Bayes, DT, ANN, and k-NN | “RapidMiner | #1 Open Source Predictive Analytics Platform”. |
5. | Weka | RF, SVM, and Naïve Bayes | “Weka 3 - Data Mining with Open Source Machine Learning Software in Java”. |
6. | Knime | DT, Naïve Bayes, and SVM | “KNIME | Open for Innovation”. |
7. | AZOrange | RT, SVM, ANN, and RF | “AZCompTox/AZOrange: AstraZeneca add-ons to Orange.”. 《GitHub》. |
8. | Tanagra | SVM, RF, Naïve Bayes, and DT | “TANAGRA - A free DATA MINING software for teaching and research”. 2017년 12월 19일에 원본 문서에서 보존된 문서. 2017년 6월 14일에 확인함. |
9. | Elki | k-NN | “ELKI Data Mining Framework”. 2016년 11월 19일에 원본 문서에서 보존된 문서. 2017년 6월 14일에 확인함. |
10. | MALLET | “MALLET homepage”. | |
11. | MOA | “MOA Massive Online Analysis | Real Time Analytics for Data Streams”. 2017년 6월 19일에 원본 문서에서 보존된 문서. 2017년 6월 14일에 확인함. |
참고 문헌
더 읽어보기
- Selassie CD (2003). "History of Quantitative Structure-Activity Relationships". In Abraham DJ. Burger's medicinal Chemistry and Drug Discovery. 1 (6th ed.). New York: Wiley. pp. 1–48. ISBN 0-471-27401-1
- Shityakov S, Puskás I, Roewer N, Förster C, Broscheit J (2014). "Three-dimensional quantitative structure-activity relationship and docking studies in a series of anthocyanin derivatives as cytochrome P450 3A4 inhibitors". Advances and Applications in Bioinformatics and Chemistry. 7: 11–21. PMC 3970920 . PMID 24741320. doi:10.2147/AABC.S56478.
외부 링크
- “The Cheminformatics and QSAR Society”. 2009년 5월 11일에 확인함.
- “The 3D QSAR Server”. 2011년 6월 18일에 확인함.
-
“Nature Protocols: Development of QSAR models using C-QSAR program”. Nature Protocols. doi:10.1038/nprot.2007.125. 2007년 5월 1일에 원본 문서에서 보존된 문서. 2009년 5월 11일에 확인함.
A regression program that has dual databases of over 21,000 QSAR models
-
“QSAR World”. 2009년 4월 25일에 원본 문서에서 보존된 문서. 2009년 5월 11일에 확인함.
A comprehensive web resource for QSAR modelers
- Chemoinformatics Tools, Drug Theoretics and Cheminformatics Laboratory
- "화학물질의 인체영향을 예측하기 위한 QSAR방법의 이용"