PISCES: a protein sequence culling server
•
Protein Data Bank (PDB)로부터, sequence identity cutoff와 structural quality 기준을 바탕으로 단백질 서열 및 구조 데이터셋을 구성해주는 서버이다.
•
PSI-BLAST를 써서 sequence identity가 계산되어 있어서, 단순 BLAST보다 distant homology relationship을 더 잘 포착한다.
•
일주일 주기로 PDB sequence들이 업데이트 된다.
PISCES 서버를 이용한 데이터셋 구성 방법
1.
2.
원하는 sequence identity cutoff과 resolution 기준을 선택한다.
3.
Download PDB file를 클릭하여 구성된 데이터셋을 다운받는다.
예시 1
•
다음과 같은 조건으로 데이터셋을 한번 구성해 보았다. 얼마나 많은 구조를 쓸 수 있을까?
Sequence percentage identity | <= 30% |
Sequence chain length | 40 ~ 10000 |
Resolution | 0.0 ~ 2.0 |
R-factor value | 0.25 |
X-ray entries | include |
EM entries | exclude |
NMR entries | exclude |
Allow chain breaks | yes |
Allow disorder | yes |
Print seqids | no |
→ 결과: 11,415개의 chain을 얻는다.
•
List of PDB chains
•
FASTA
예시 2)
Sequence percentage identity | <= 30% |
Sequence chain length | 40 ~ 10000 |
Resolution | 0.0 ~ 1.0 |
R-factor value | 0.25 |
X-ray entries | include |
EM entries | exclude |
NMR entries | exclude |
Allow chain breaks | yes |
Allow disorder | yes |
Print seqids | no |
→ 결과: 351개의 chain을 얻는다.
•
List of PDB chains
•
FASTA
예시 3)
Sequence percentage identity | <= 30% |
Sequence chain length | 40 ~ 10000 |
Resolution | 0.0 ~ 2.0 |
R-factor value | 0.25 |
X-ray entries | include |
EM entries | exclude |
NMR entries | exclude |
Allow chain breaks | no |
Allow disorder | yes |
Print seqids | no |
→ 결과: 9471개의 chain을 얻는다.
예시 4)
Sequence percentage identity | <= 30% |
Sequence chain length | 40 ~ 10000 |
Resolution | 0.0 ~ 1.5 |
R-factor value | 0.25 |
X-ray entries | include |
EM entries | exclude |
NMR entries | exclude |
Allow chain breaks | no |
Allow disorder | yes |
Print seqids | no |
→ 결과: 3615개의 chain을 얻는다.
•
List of PDB chains
•
FASTA
High-resolution protein structure를 얻고자 하면, resolution cutoff를 얼마로 주는 게 보통일까?
•
PDB 101에서는 1.0A를 기준으로 삼고 있다.
•