化學資料庫
化學資料庫是為記錄化學資訊而專門設計的資料庫。這些資訊包括了物質的分子結構、晶體結構、譜學資訊、相關反應與合成方法,以及化學熱力學性質資料等。
化學資料庫的種類
[編輯]分子結構資料庫
[編輯]一般來說,用二維鍵線式來描述分子結構,對大多數小分子而言是較為常見的方法。儘管這種表述方法對化學家們來說簡單明了,卻不適合於在資料庫中的儲存和搜尋演算法的編寫。因此在資料庫中小分子(在藥物設計領域也常稱為配位基)通常以將分子中的原子及其鍵連列表的方式描述,而大分子如蛋白質等,則常用胺基酸組裝單元序列等更緊湊的方式表示。
化學文獻資料庫
[編輯]化學文獻資料庫的目的是將化學物質與相關文獻——如科學論文或專利——關聯起來。此類資料庫的典型代表如化學文摘社的STN和SciFinder。許多專注於物質表徵的資料庫都提供了文獻連結。
晶體學資料庫
[編輯]晶體學資料庫主要提供物質的X射線衍射資料。這些資料反映了物質的結構資訊。最典型的代表是蛋白質資料庫和劍橋晶體學資料庫。
核磁共振譜資料庫
[編輯]核磁共振譜資料庫提供物質的核磁共振波譜資訊。這類資料庫一般也提供物質的其他譜學資訊,如傅立葉變換紅外吸收光譜和質譜等。
反應資料庫
[編輯]大多數資料庫所記錄的都是穩態分子的資訊,但也有一些反應資料庫,著重記錄反應中瞬間產生的亞穩態分子或中間體。這類反應資料庫一般還會提供反應前驅物、產物和反應機理的資訊。
熱物理學性質資料庫
[編輯]熱物理學性質包括以下方面:
分子結構的表示
[編輯]在數位化的化學資料庫中,分子結構一般有兩種表示方法,包括:
- 將原子表示為節點,化學鍵表示為邊,將分子表達為連接表或鄰接矩陣。採取這一方法的有蛋白質資料庫和化學標記式語言等。
- 將分子按照深度優先搜尋或廣度優先搜尋的原則表達為線性字串。這一方法的典型例子是簡化分子線性輸入規範(SMILES)。
搜尋
[編輯]亞結構搜尋
[編輯]化學研究者在搜尋某一物質時,可以不必輸入整個分子式,而只搜尋其結構的一部分,或其IUPAC命名法名稱的一部分。這種亞結構搜尋功能,正是化學資料庫與一般資料庫最大的區別之一。這種搜尋是基於子圖同構問題實現的,而這一問題也在圖論中被廣泛研究。一般來說這類搜尋具有O (n3)或O (n4)的時間複雜性,其中n是涉及原子的數目。
構象搜尋
[編輯]在一定的空間限制條件下,搜尋物質特定的三維構象,也是化學資料庫常需要實現的功能之一(尤其是在藥物設計領域)。這樣的搜尋相當消耗資源,因而人們也設計了多種近似方法來加以解決[1][2][3][4][5]。
描述單元
[編輯]分子的所有性質都可以拆分為具體的物理/化學性質或藥學性質,這些性質被稱作描述單元。最重要的描述單元當然是化合物名,在這方面,多年來已發展起多種接近標準化的命名方法,從而得以減少含義不清的命名或一物多名現象。其中,IUPAC名是一個很好的選擇,不僅對人而言直接可讀,從電腦角度也提供了獨一無二的字串。不過,對大分子而言,IUPAC名就顯得過分冗長了。至於化合物的俗名,則難免受到數詞同音或數詞同義的干擾,不適合作為搜尋關鍵詞。另一方面,分子的物理/化學描述單元,諸如分子量、(部分)電荷、溶解度等等,幾乎可以直接從分子結構計算出來,而藥學描述單元則一般能從多元統計分析或實驗(藥物篩選、生物檢定法等)結果中獲得。所有這些描述單元都和分子的表達式被儲存在一起。
化學相似性
[編輯]對於化學相似性,並沒有統一的定義。不過,仍然可以將化學相似性從應用角度進行定義,比如描述為兩種分子在描述單元空間上距離的倒數。例如,如果兩種分子的分子量差距(比之其他分子對)較小,那麼就可以認為這兩種分子較為相似。多種衡量方式可以組合起來,產生多變數的距離度量。根據三角不等式的成立與否,距離度量還可以分為歐幾里得度量和非歐幾里得度量。通過進行最大共同子圖同構問題(MCS)基礎上的亞結構搜尋[6] ,來進行距離度量和化學相似性評估的方法也很常見。MCS也被用於藥物篩選,即嘗試與現有藥物具有共同亞結構的不同分子 [7]。
資料庫中的化學品根據其相似性被歸入不同的群組中,對於屬性繁多的化學品,既可採用分級分類別方法,又可採用不分級的分類別方法。而這些化學品的性質則可能通過經驗或電腦計算得到。最為廣泛應用的分類別方法是Jarvis-Patrick演算法[8]。
另外,在面向藥學應用的化學資料庫中,相似性通常被定義為化合物的生物效應。後者通常可以由分子的物理/化學性質,應用定量構效關係半自動地得到。
化學品登入系統
[編輯]記錄化合物獨特性資訊的資料庫被稱為化學品登入系統。這類系統通常被用於化合物的索引化,專利註冊以及工業資料庫中。 物質登入系統一般對化合物在資料庫中的唯一表達有強制性要求。一般來說,這樣的唯一表達是所謂的「正則」字串,例如「正則SMILES」。有些化學品登入系統,如CAS則利用計算雜湊的方法達到相同的目的。 化學品登入系統與一般化學資料庫的關鍵區別在於,前者能夠準確地區分一種物質究竟是已知,未知抑或部分已知。譬如說,一般的化學資料庫中可能記錄了一個分子,但其立體化學資訊則付諸闕如,而在化學品登入系統中,登入者將會被要求提供關於分子構象的準確資訊——構象已知或未知,是否是混合物乃至外消旋體,等。每一種不同的情形在化學品登入系統中都作為一個單獨的記錄。 化學品登入系統也對分子資訊進行一些前處理,避免不重要的差別(如不同的鹵離子)產生影響。 這類系統的一個典型例子是化學文摘註冊系統[1]。參見CAS編號。
參見
[編輯]參考文獻
[編輯]- ^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 (英語).
- ^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 (英語).
- ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 (英語).
- ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 (英語).
- ^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 (英語).
- ^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12(英式英語)
- ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. (原始內容存檔於2020-01-28) (英國英語).
- ^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 (英語).
外部連結
[編輯]化學資料庫和物質註冊軟體
[編輯]Database and registration software
[編輯]- CDK,一個開源的化學品資料JAVA圖書館 (頁面存檔備份,存於網際網路檔案館)(英文)
- JChem Base (頁面存檔備份,存於網際網路檔案館)(英文) 和 JChem Cartridge(英文) ChemAxon提供的Java和.NET版本資料庫管理搜尋工具
- Instant JChem(英文) ChemAxon提供的Java桌面資料庫管理搜尋軟體。個人版免費
- SMSD (小分子子圖探測器) (頁面存檔備份,存於網際網路檔案館)(英式英語) 基於JAVA的資料庫軟體,可以計算小分子之間的最大共同子圖(MCS)
- JOELib (頁面存檔備份,存於網際網路檔案館)(英文),基於JAVA的化學品資料庫
- '化學品尋找服務' 與 'NCI 增強版資料瀏覽器' (頁面存檔備份,存於網際網路檔案館)(英文),國家癌症研究院(NCI)CADD小組提供的網路資料庫服務
名稱資料庫
[編輯]- MOLBASE Online Database (頁面存檔備份,存於網際網路檔案館)(英文),免費化學資料庫,可以方便檢索查詢化學品名稱、CAS編號、化合物結構、子結構和相似結構搜尋,可查詢化學品物化性質;上下游關係。
- Chemical Substances Database[失效連結],一個免費的化學品名稱資料庫,有37000個以上的條目,在化學品名稱日英互譯方面十分有用。
- ChemSub Online (頁面存檔備份,存於網際網路檔案館)(法文),免費的化學品資訊網上門戶,提供八種語言的化學品名稱。
- EuroChem Online Database,免費的化學資料庫。