🛠️

BioPandas로 PDB 파일 파싱하는 법

Working with molecular structures in pandas DataFrames About If you are a computational biologist, chances are that you cursed one too many times about protein structure files. Yes, I am talking about ye Goode Olde Protein Data Bank format, aka "PDB files."

http://rasbt.github.io/biopandas/

Quickstart

아래 함수로 pandas dataframe을 얻는다. 참고로 -fold 모델은 b_factor 컬럼을 이용해서 pLDDT값을 구할 수 있음.

from biopandas.pdb import PandasPdb

def read_pdb(fp, chain_id=None, ca_only=True):
    tmp = PandasPdb().read_pdb(fp).df['ATOM']
    if chain_id is None:
        return tmp[tmp.atom_name == 'CA'].drop_duplicates('residue_number')
    else:
        return tmp[(tmp.atom_name == 'CA') & (tmp.chain_id == chain_id)].drop_duplicates('residue_number')
Python
복사

•

ca_only : C-alpha 만 읽어온다. 이렇게 해야 residue 당 하나의 row가 나와서 분석하기 편함.