化學資料庫
化學數據庫是為記錄化學信息而專門設計的數據庫。這些信息包括了物質的分子結構、晶體結構、譜學信息、相關反應與合成方法,以及化學熱力學性質數據等。
化學數據庫的種類
[編輯]分子結構數據庫
[編輯]一般來說,用二維鍵線式來描述分子結構,對大多數小分子而言是較為常見的方法。儘管這種表述方法對化學家們來說簡單明了,卻不適合於在數據庫中的存儲和搜索算法的編寫。因此在數據庫中小分子(在藥物設計領域也常稱為配體)通常以將分子中的原子及其鍵連列表的方式描述,而大分子如蛋白質等,則常用氨基酸組裝單元序列等更緊湊的方式表示。
化學文獻數據庫
[編輯]化學文獻數據庫的目的是將化學物質與相關文獻——如科學論文或專利——關聯起來。此類數據庫的典型代表如化學文摘社的STN和SciFinder。許多專注於物質表徵的數據庫都提供了文獻鏈接。
晶體學數據庫
[編輯]晶體學數據庫主要提供物質的X射線衍射數據。這些數據反映了物質的結構信息。最典型的代表是蛋白質資料庫和劍橋晶體學數據庫。
核磁共振譜數據庫
[編輯]核磁共振譜數據庫提供物質的核磁共振波譜信息。這類數據庫一般也提供物質的其他譜學信息,如傅立葉變換紅外吸收光譜和質譜等。
反應數據庫
[編輯]大多數數據庫所記錄的都是穩態分子的信息,但也有一些反應數據庫,着重記錄反應中瞬間產生的亞穩態分子或中間體。這類反應數據庫一般還會提供反應前驅物、產物和反應機理的信息。
熱物理學性質數據庫
[編輯]熱物理學性質包括以下方面:
分子結構的表示
[編輯]在數字化的化學數據庫中,分子結構一般有兩種表示方法,包括:
- 將原子表示為節點,化學鍵表示為邊,將分子表達為連接表或鄰接矩陣。採取這一方法的有蛋白質資料庫和化學標記語言等。
- 將分子按照深度優先搜索或廣度優先搜索的原則表達為線性字符串。這一方法的典型例子是簡化分子線性輸入規範(SMILES)。
搜索
[編輯]亞結構搜索
[編輯]化學研究者在搜索某一物質時,可以不必輸入整個分子式,而只搜索其結構的一部分,或其IUPAC命名法名稱的一部分。這種亞結構搜索功能,正是化學數據庫與一般數據庫最大的區別之一。這種搜索是基於子圖同構問題實現的,而這一問題也在圖論中被廣泛研究。一般來說這類搜索具有O (n3)或O (n4)的時間複雜性,其中n是涉及原子的數目。
構象搜索
[編輯]在一定的空間限制條件下,搜索物質特定的三維構象,也是化學數據庫常需要實現的功能之一(尤其是在藥物設計領域)。這樣的搜索相當消耗資源,因而人們也設計了多種近似方法來加以解決[1][2][3][4][5]。
描述單元
[編輯]分子的所有性質都可以拆分為具體的物理/化學性質或藥學性質,這些性質被稱作描述單元。最重要的描述單元當然是化合物名,在這方面,多年來已發展起多種接近標準化的命名方法,從而得以減少含義不清的命名或一物多名現象。其中,IUPAC名是一個很好的選擇,不僅對人而言直接可讀,從計算機角度也提供了獨一無二的字符串。不過,對大分子而言,IUPAC名就顯得過分冗長了。至於化合物的俗名,則難免受到數詞同音或數詞同義的干擾,不適合作為搜索關鍵詞。另一方面,分子的物理/化學描述單元,諸如分子量、(部分)電荷、溶解度等等,幾乎可以直接從分子結構計算出來,而藥學描述單元則一般能從多元統計分析或實驗(藥物篩選、生物檢定法等)結果中獲得。所有這些描述單元都和分子的表達式被儲存在一起。
化學相似性
[編輯]對於化學相似性,並沒有統一的定義。不過,仍然可以將化學相似性從應用角度進行定義,比如描述為兩種分子在描述單元空間上距離的倒數。例如,如果兩種分子的分子量差距(比之其他分子對)較小,那麼就可以認為這兩種分子較為相似。多種衡量方式可以組合起來,產生多變量的距離度量。根據三角不等式的成立與否,距離度量還可以分為歐幾里得度量和非歐幾里得度量。通過進行最大共同子圖同構問題(MCS)基礎上的亞結構搜索[6] ,來進行距離度量和化學相似性評估的方法也很常見。MCS也被用於藥物篩選,即嘗試與現有藥物具有共同亞結構的不同分子 [7]。
數據庫中的化學品根據其相似性被歸入不同的群組中,對於屬性繁多的化學品,既可採用分級分類方法,又可採用不分級的分類方法。而這些化學品的性質則可能通過經驗或計算機計算得到。最為廣泛應用的分類方法是Jarvis-Patrick算法[8]。
另外,在面向藥學應用的化學數據庫中,相似性通常被定義為化合物的生物效應。後者通常可以由分子的物理/化學性質,應用定量構效關係半自動地得到。
化學品登錄系統
[編輯]記錄化合物獨特性信息的數據庫被稱為化學品登錄系統。這類系統通常被用於化合物的索引化,專利註冊以及工業數據庫中。 物質登錄系統一般對化合物在數據庫中的唯一表達有強制性要求。一般來說,這樣的唯一表達是所謂的「正則」字符串,例如「正則SMILES」。有些化學品登錄系統,如CAS則利用計算哈希的方法達到相同的目的。 化學品登錄系統與一般化學數據庫的關鍵區別在於,前者能夠準確地區分一種物質究竟是已知,未知抑或部分已知。譬如說,一般的化學數據庫中可能記錄了一個分子,但其立體化學信息則付諸闕如,而在化學品登錄系統中,登錄者將會被要求提供關於分子構象的準確信息——構象已知或未知,是否是混合物乃至外消旋體,等。每一種不同的情形在化學品登錄系統中都作為一個單獨的記錄。 化學品登錄系統也對分子信息進行一些前處理,避免不重要的差別(如不同的鹵離子)產生影響。 這類系統的一個典型例子是化學文摘註冊系統[1]。參見CAS號。
參見
[編輯]參考文獻
[編輯]- ^ Pearlman, R.S.; Smith, K.M. Metric Validation and the Receptor-Relevant Subspace Concept. J. Chem. Inf. Comput. Sci. 1999, 39: 28–35 (英語).
- ^ Lin Jr, Hung; Clark, Timothy. An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM. 2005, 45 (4): 1010–1016 (英語).
- ^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J. Shape Signatures: speeding up computer aided drug discovery. DDT 2006. 2006, 19–20: 895–904 (英語).
- ^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC. 1996, 17 (14): 1653–1666 (英語).
- ^ Ballester, P. J.; Richards, W. G. Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A. 2007, 463: 1307–1321 (英語).
- ^ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12(英式英語)
- ^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. Small Molecule Subgraph Detector (SMSD) Toolkit. Journal of Cheminformatics. 2009, 1: 12 [2012-06-28]. doi:10.1186/1758-2946-1-12. (原始內容存檔於2020-01-28) (英國英語).
- ^ Butina, Darko. Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 1999, 39: 747–750 (英語).
外部連結
[編輯]化學數據庫和物質註冊軟件
[編輯]Database and registration software
[編輯]- CDK,一個開源的化學品數據JAVA圖書館 (頁面存檔備份,存於網際網路檔案館)(英文)
- JChem Base (頁面存檔備份,存於網際網路檔案館)(英文) 和 JChem Cartridge(英文) ChemAxon提供的Java和.NET版本數據庫管理搜索工具
- Instant JChem(英文) ChemAxon提供的Java桌面數據庫管理搜索軟件。個人版免費
- SMSD (小分子子圖探測器) (頁面存檔備份,存於網際網路檔案館)(英式英語) 基於JAVA的數據庫軟件,可以計算小分子之間的最大共同子圖(MCS)
- JOELib (頁面存檔備份,存於網際網路檔案館)(英文),基於JAVA的化學品數據庫
- '化學品查找服務' 與 'NCI 增強版數據瀏覽器' (頁面存檔備份,存於網際網路檔案館)(英文),國家癌症研究院(NCI)CADD小組提供的網絡數據庫服務
名稱數據庫
[編輯]- MOLBASE Online Database (頁面存檔備份,存於網際網路檔案館)(英文),免費化學數據庫,可以方便檢索查詢化學品名稱、CAS號、化合物結構、子結構和相似結構搜索,可查詢化學品物化性質;上下游關係。
- Chemical Substances Database[失效連結],一個免費的化學品名稱數據庫,有37000個以上的條目,在化學品名稱日英互譯方面十分有用。
- ChemSub Online (頁面存檔備份,存於網際網路檔案館)(法文),免費的化學品信息網上門戶,提供八種語言的化學品名稱。
- EuroChem Online Database,免費的化學數據庫。