跳至內容

化學資料庫

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

化學數據庫是為記錄化學信息而專門設計的數據庫。這些信息包括了物質的分子結構晶體結構、譜學信息、相關反應與合成方法,以及化學熱力學性質數據等。

化學數據庫的種類

[編輯]

分子結構數據庫

[編輯]

一般來說,用二維鍵線式來描述分子結構,對大多數小分子而言是較為常見的方法。儘管這種表述方法對化學家們來說簡單明了,卻不適合於在數據庫中的存儲和搜索算法的編寫。因此在數據庫中小分子(在藥物設計領域也常稱為配體)通常以將分子中的原子及其鍵連列表的方式描述,而大分子如蛋白質等,則常用氨基酸組裝單元序列等更緊湊的方式表示。

化學文獻數據庫

[編輯]

化學文獻數據庫的目的是將化學物質與相關文獻——如科學論文或專利——關聯起來。此類數據庫的典型代表如化學文摘社STNSciFinder。許多專注於物質表徵的數據庫都提供了文獻鏈接。

晶體學數據庫

[編輯]

晶體學數據庫主要提供物質的X射線衍射數據。這些數據反映了物質的結構信息。最典型的代表是蛋白質資料庫劍橋晶體學數據庫

核磁共振譜數據庫

[編輯]

核磁共振譜數據庫提供物質的核磁共振波譜信息。這類數據庫一般也提供物質的其他譜學信息,如傅立葉變換紅外吸收光譜質譜等。

反應數據庫

[編輯]

大多數數據庫所記錄的都是穩態分子的信息,但也有一些反應數據庫,着重記錄反應中瞬間產生的亞穩態分子或中間體。這類反應數據庫一般還會提供反應前驅物、產物和反應機理的信息。

熱物理學性質數據庫

[編輯]

熱物理學性質包括以下方面:

分子結構的表示

[編輯]

在數字化的化學數據庫中,分子結構一般有兩種表示方法,包括:

搜索

[編輯]

亞結構搜索

[編輯]

化學研究者在搜索某一物質時,可以不必輸入整個分子式,而只搜索其結構的一部分,或其IUPAC命名法名稱的一部分。這種亞結構搜索功能,正是化學數據庫與一般數據庫最大的區別之一。這種搜索是基於子圖同構問題實現的,而這一問題也在圖論中被廣泛研究。一般來說這類搜索具有O (n3)或O (n4)的時間複雜性,其中n是涉及原子的數目。

構象搜索

[編輯]

在一定的空間限制條件下,搜索物質特定的三維構象,也是化學數據庫常需要實現的功能之一(尤其是在藥物設計領域)。這樣的搜索相當消耗資源,因而人們也設計了多種近似方法來加以解決[1][2][3][4][5]

描述單元

[編輯]

分子的所有性質都可以拆分為具體的物理/化學性質或藥學性質,這些性質被稱作描述單元。最重要的描述單元當然是化合物名,在這方面,多年來已發展起多種接近標準化的命名方法,從而得以減少含義不清的命名或一物多名現象。其中,IUPAC名是一個很好的選擇,不僅對人而言直接可讀,從計算機角度也提供了獨一無二的字符串。不過,對大分子而言,IUPAC名就顯得過分冗長了。至於化合物的俗名,則難免受到數詞同音或數詞同義的干擾,不適合作為搜索關鍵詞。另一方面,分子的物理/化學描述單元,諸如分子量、(部分)電荷溶解度等等,幾乎可以直接從分子結構計算出來,而藥學描述單元則一般能從多元統計分析或實驗(藥物篩選生物檢定法等)結果中獲得。所有這些描述單元都和分子的表達式被儲存在一起。

化學相似性

[編輯]

對於化學相似性,並沒有統一的定義。不過,仍然可以將化學相似性從應用角度進行定義,比如描述為兩種分子在描述單元空間上距離的倒數。例如,如果兩種分子的分子量差距(比之其他分子對)較小,那麼就可以認為這兩種分子較為相似。多種衡量方式可以組合起來,產生多變量的距離度量。根據三角不等式的成立與否,距離度量還可以分為歐幾里得度量和非歐幾里得度量。通過進行最大共同子圖同構問題(MCS)基礎上的亞結構搜索[6] ,來進行距離度量和化學相似性評估的方法也很常見。MCS也被用於藥物篩選,即嘗試與現有藥物具有共同亞結構的不同分子 [7]

數據庫中的化學品根據其相似性被歸入不同的群組中,對於屬性繁多的化學品,既可採用分級分類方法,又可採用不分級的分類方法。而這些化學品的性質則可能通過經驗或計算機計算得到。最為廣泛應用的分類方法是Jarvis-Patrick算法[8]

另外,在面向藥學應用的化學數據庫中,相似性通常被定義為化合物的生物效應。後者通常可以由分子的物理/化學性質,應用定量構效關係半自動地得到。

化學品登錄系統

[編輯]

記錄化合物獨特性信息的數據庫被稱為化學品登錄系統。這類系統通常被用於化合物的索引化,專利註冊以及工業數據庫中。 物質登錄系統一般對化合物在數據庫中的唯一表達有強制性要求。一般來說,這樣的唯一表達是所謂的「正則」字符串,例如「正則SMILES」。有些化學品登錄系統,如CAS則利用計算哈希的方法達到相同的目的。 化學品登錄系統與一般化學數據庫的關鍵區別在於,前者能夠準確地區分一種物質究竟是已知,未知抑或部分已知。譬如說,一般的化學數據庫中可能記錄了一個分子,但其立體化學信息則付諸闕如,而在化學品登錄系統中,登錄者將會被要求提供關於分子構象的準確信息——構象已知或未知,是否是混合物乃至外消旋體,等。每一種不同的情形在化學品登錄系統中都作為一個單獨的記錄。 化學品登錄系統也對分子信息進行一些前處理,避免不重要的差別(如不同的離子)產生影響。 這類系統的一個典型例子是化學文摘註冊系統[1]。參見CAS號

參見

[編輯]

參考文獻

[編輯]
  1. ^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 (英語). 
  2. ^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 (英語). 
  3. ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 (英語). 
  4. ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 (英語). 
  5. ^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 (英語). 
  6. ^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12(英式英語)
  7. ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. (原始內容存檔於2020-01-28) (英國英語). 
  8. ^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 (英語). 

外部連結

[編輯]

化學數據庫和物質註冊軟件

[編輯]

Database and registration software

[編輯]

名稱數據庫

[編輯]