摘要

在化学及相关研究中,常常需要根据化合物的CAS登记号查询其结构。本文通过整合山东省生物信息工程技术研究中心现有的数据,创建成一个化合物CAS登记号与其结构相互对应的数据库,应用于科研。先从CMC、MDDR、ACD、CNPD、NCI等7个数据库中,共导出575468个化合物的相关数据,这些数据经处理后,导入ChemFinder化学数据库系统。通过查重,保留了404269个独立CAS登记号的化合物,每个化合物都包含其结构、CAS登记号、来源数据库及编号、分子式、分子量、脂水分布系数等信息。数据库还保留了sdf和mol2两种文件格式,以满足虚拟筛选等后续研究的需要。