用戶:Hao Siru/SMILES 規範
副檔名 |
.smi |
---|---|
網路媒體型式 |
chemical/x-daylight-smiles |
格式類型 | 化學文件格式 |
簡化分子線性輸入規範(SMILES) 是一種用ASCII字符串明確描述分子結構的規範。大多數分子編輯器都可以導入SMILES字符串,以轉換回分子的二維繪圖或三維模型。
最初的 SMILES 規範始於 1980 年代,已經被多次修改和擴展。 2007 年,開源化學社區開發了一個名為 OpenSMILES 的開放標準。
歷史
最初的 SMILES 規範由David Weininger在 1980 年代在德盧斯的 USEPA 大陸生態部實驗室發起。 [1] [2] [3] [4]感謝他們在早期開發中的貢獻:「Gilman Veith 和 Rose Russo (USEPA) 以及 Albert Leo 和Corwin Hansch (Pomona College) 支持這項工作,以及 Arthur Weininger (Pomona; Daylight CIS) 和 Jeremy Scofield (Cedar River Software, Renton, WA) 為系統編程提供幫助。」 [5]環境保護署資助了開發 SMILES 的初始項目。 [6] [7]
它已被其他人或組織修改和擴展,例如日光化學信息系統(Daylight Chemical Information Systems)。 2007 年,Blue Obelisk開源化學社區開發了一個名為「OpenSMILES」的開放標準。其他字符串符號表示方法包括 Wiswesser Line Notation (WLN)、 ROSDAL和SLN (Tripos Inc)。
2006年7月,IUPAC引入了InChI作為公式表示的標準。 通常認為SMILES比InChI具有更易於人類可讀的優點;它還擁有廣泛的軟件支持基礎,具有廣泛的理論支持(例如圖論)。
術語
術語 SMILES 是指用於編碼分子結構的行符號,特定實例應嚴格稱為 SMILES 字符串。然而,術語 SMILES 也常用於指單個 SMILES 字符串和多個 SMILES 字符串。確切的含義通常從上下文中顯而易見。當應用於 SMILES 時,術語「規範」和「異構」可能會導致一些混淆。這些術語描述了 SMILES 字符串的不同屬性,並不相互排斥。
可以為一個分子通常具有多個同樣有效的 SMILES 字符串。例如, CCO
、 OCC
和 C(O)C
都指定了乙醇的結構。為給定的分子生成相同的 SMILES 字符串的算法已經被開發完畢;這些算法在許多可能的字符串中只選擇其中一個。依賴於用於生成它的規範化算法,這個 SMILES 對於每個結構都是唯一的,這個 SMILES 被稱為規範 SMILES。這些算法首先將 SMILES 轉換為分子結構的內部表示;然後算法會檢查該結構並生成唯一的 SMILES 字符串。下面是一些包含用於生成規範 SMILES 的算法的工具,包括 Daylight Chemical Information Systems、 OpenEye Scientific Software 、 MEDIT 、 Chemical Computing Group 、 MolSoft LLC 和Chemistry Development Kit的算法。規範 SMILES 的一個常見應用是索引並確保數據庫中分子的唯一性。
描述 CANGEN [2]算法的原始論文聲稱可以為表示分子的圖形生成唯一的 SMILES 字符串,但該算法在許多簡單情況下都失敗了(例如cuneane 、1,2-二環丙基乙烷)並且被認為不能使用正確的方法典型地表示圖形。 [8]目前沒有跨商業軟件的系統比較來測試這些軟件包中是否存在此類缺陷。
SMILES 符號允許指定四面體中心的配置和雙鍵幾何形狀。這些是不能僅由連接性指定的結構特徵,因此編碼此信息的 SMILES 稱為異構 SMILES。這些規則的一個顯着特徵是它們允許對手性進行嚴格的部分說明。術語異構 SMILES 也適用於指定異構體的 SMILES。
基於圖的定義
就基於圖的計算過程而言,SMILES 是通過深度優先遍歷分子結構式的中遇到的符號節點獲得的字符串。首先去除圖里氫原子,然後打開環以將其變成生成樹。在環中斷的地方插入包含數字後綴標籤(相同數字的節點表示該兩個原子相連)。括號用於表示支鏈。
生成的 SMILES 形式取決於選擇:
SMILES 定義為上下文無關語言的字符串
從形式語言理論的角度來看,SMILES 是一個詞。 SMILES 可以用上下文無關的解析器解析。基於相似分子具有相似特性的化學信息學的主要原理,這種表示的使用一直用於預測生化特性(包括毒性和生物降解性)。預測模型實現了句法模式識別方法(涉及定義分子距離) [9] ,以及基於統計模式識別的更強大的方案。 [10]
記法
原子
原子由方括號中的化學元素的標準縮寫表示,例如[Au]
表示金。在以下原子的常見情況下可以省略括號:
- 屬於B 、 C 、 N 、 O 、 P 、 S 、 F 、 Cl 、 Br或I的「有機子集」
- 沒有形式電荷
- 具有 SMILES 化合價模型所暗示的氫的數量(通常是它們的正常化合價,但對於 N 和 P,它是 3 或 5,對於 S,它是 2、4 或 6)
- 是正常同位素
- 不是手性中心
所有其他元素必須用括號括起來,並明確顯示電荷和氫。例如,水的 SMILES 可以寫為O
或[OH2]
。氫也可以寫成一個單獨的原子;水也可以寫成[H]O[H]
。
使用括號時,如果括號中的原子與一個或多個氫鍵合,則添加符號H
,如果大於 1,則添加氫原子數,然後添加符號+
表示正電荷或-
表示負電荷。例如, [NH4+]
表示銨( NH+
4 )。如果有多個電荷,通常寫為數字;但是,也可以根據離子的電荷多次重複該符號:對於鈦(IV) Ti 4+ ,可以寫為[Ti+4]
或[Ti++++]
。因此,氫氧根陰離子(Template:OH- ) 由[OH-]
表示,水合氫陽離子 (H3O+)是[OH3+]
,鈷(III)陽離子(Co 3+ )是[Co+3]
或[Co+++]
。
化學鍵
使用其中一個符號表示鍵. - = # $ : / \
。
除非另有說明,否則脂肪族化合物原子之間的鍵被假定為單鍵,並且通過 SMILES 字符串中的鄰接來暗示。雖然單鍵可以寫為-
,但通常省略。例如,乙醇的 SMILES 可以寫成CCO
、 CC-O
或C-CO
,但通常寫成CCO
。
雙鍵、三鍵和四鍵分別用符號=
、 #
和$
表示,如 SMILES O=C=O
(二氧化碳)、 C#N
(氰化氫HCN)和[Ga+]$[As-]
(砷化鎵)。
另一種鍵是「不成鍵」,用 表示.
, 表示兩個部分沒有粘合在一起。例如,氯化鈉水溶液可寫為[Na+].[Cl-]
顯示解離。
與雙鍵相鄰的單鍵可以使用/
或\
表示立體化學構型;見下面的§ 立體化學。
環
為了形成無環結構,需要在所有環的任意點(某些特定的選擇可能會使結果更簡明)打斷。添加數字標籤以顯示不相鄰原子之間的連接性。
例如,環己烷和二惡烷可以分別寫成C1CCCCC1
和O1CCOCC1
。我們將第二個環的順序編為2,例如,十氫化萘可以寫為C1CCCC2C1CCCC2
。
這是一些符合SMILES規範但很少用的環號編碼方法:
- 環號的順序可以是任意的
- 在環結束之後可以重用環號
- 可以使用0作為環號
但是這通常會使SMILES更難閱讀。例如,環己基環己烷通常寫為C1CCCCC1C2CCCCC2
,但也可能寫為C0CCCCC0C0CCCCC0
。
單個原子後的多個數字表示多個閉環鍵。例如,十氫化萘的另一種 SMILES 符號是C1CCCC2CCCCC12
,其中最終的碳同時結束了環1和環2。
如果需要兩位數的環號,則標籤前面有%
,因此C%12
是環12的單個閉環鍵。
環號前面可以有一個化學鍵符號用以指示閉環鍵的類型。例如,環丙烯通常寫作C1=CC1
,但如果選擇雙鍵作為閉環鍵,則可以寫作C=1CC1
、C1CC=1
或C=1CC=1
(儘量使用C1=CC1
)。不可以對同一個閉環鍵指定多種類型,因此C=1CC-1
是非法的。
Ring-closing bonds may not be used to denote multiple bonds. For example,
C1C1
is not a valid alternative toC=C
for ethylene. However, they may be used with non-bonds;C1.C2.C12
is a peculiar but legal alternative way to write propane, more commonly writtenCCC
.
閉環鍵不能用於表示多重鍵。例如乙烯, C1C1
不是C=C
的有效替代品。但它們可以與不成鍵一起使用; C1.C2.C12
是一種特殊但合法的書寫丙烷的替代方式,更常見的是書寫CCC
。
選擇與支鏈相鄰的斷環點可以得出更簡單的 SMILES 形式。例如,1,2-環己二醇最簡單地寫為OC1CCCCC1O
。選擇不同的位置斷環會產生一個分支結構。
芳香環
- 具有交替單鍵和雙鍵的凱庫勒式
CC=CC=C1
- 使用芳香鍵符號
:
,例如C1:C:C:C:C:C1
- 最常見的是,通過分別以小寫形式
b
、c
、n
、o
、p
和s
編寫構成 B、C、N、O、P 和 S 原子。
在最後一種情況下,允許未指出兩個芳香原子之間的鍵是芳香鍵。因此,苯、吡啶和呋喃可以分別用 SMILES c1ccccc1
、 n1ccccc1
和o1cccc1
。
在吡咯中發現的與氫鍵合的芳香氮必須表示為[nH]
;因此咪唑用 SMILES 表示法寫為n1c[nH]cc1
。
當芳族原子彼此單鍵時,必須明確顯示單鍵。例如聯苯c1ccccc1-c2ccccc2
。這是需要單鍵符號-
的少數情況之一。(實際上大多數 SMILES 軟件可以正確推斷出兩個環之間的鍵不能是芳香的,因此會接受非標準形式c1ccccc1c2ccccc2
。 )
用於生成規範 SMILES 的 Daylight 和 OpenEye 算法在處理芳香性方面有所不同。
分支
支鏈用括號描述,如丙酸的CCC(=O)O
和氟仿的FC(F)F
。括號內的第一個原子和括號內的基團之後的第一個原子都與相同的分支點原子鍵合。化學鍵符號必須出現在括號內;外部(例如: CCC=(O)O
)無效。
取代的環可以用環中的分支點書寫,如編碼 3 和 4-氰基苯甲醚異構體的 SMILES COc(c1)cccc1C#N
(見圖片)和COc(cc1)ccc1C#N
(見圖片)所示。以這種方式為替代環編寫 SMILES 可以使它們更易於閱讀。
可以按任何順序編寫分支。例如,二氟一氯一溴甲烷可寫為FC(Br)(Cl)F
、 BrC(F)(F)Cl
、 C(F)(Cl)(F)Br
等。通常,如果較簡單的分支出現在最前面,則 SMILES 表單最容易閱讀,最後的未加括號的部分是最複雜的。這種重新排列的唯一警告是:
- 如果環號被重複使用,它們將根據它們在 SMILES 字符串中出現的順序進行配對。可能需要進行一些調整以保持正確的配對。
- 如果指定了立體化學,則必須進行調整。
不需要括號的一種分支形式是閉環鍵。在合適的位置斷環能減少括號的數量。例如,甲苯通常寫成Cc1ccccc1
或c1ccccc1C
,避免寫成c1cc(C)ccc1
或c1cc(ccc1)C
時所需的括號。
立體化學
SMILES 允許但不要求對立體異構體進行規範。
雙鍵周圍的配置使用字符/
和\
指定,以顯示與雙鍵相鄰的定向單鍵。例如, F/C=C/F
(見圖示)是反-1,2-二氟乙烯的一種表示,其中氟原子位於雙鍵的相對兩側(如圖所示),而F/C=C\F
(見圖示)是順-1,2-二氟乙烯的一種可能表示形式,其中氟位於雙鍵的同一側。
鍵方向符號總是以至少兩個為一組出現,其中第一個是任意的。也就是說, F\C=C\F
與F/C=C/F
相同。當存在交替的單雙鍵時,基團大於兩個,中間方向符號與兩個雙鍵相鄰。例如,(2,4)-己二烯的常見形式寫作C/C=C/C=C/C
(見圖示)。
作為一個更複雜的例子, β-胡蘿蔔素有一個很長的單鍵和雙鍵交替的主鏈,可以寫成CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
(見圖示)。
手性碳的順序由@
或@@
指定。按從字符串左側到右側的順序以順序規則考慮四個鍵。從第一個鍵的角度看向碳,其他三個是順時針@@
或逆時針@
(因為@
符號本身是逆時針螺旋)。
例如,考慮丙氨酸。它的 SMILES 形式之一是NC(C)C(=O)O
,更完整地寫為N[CH](C)C(=O)O
。 L-丙氨酸,更常見的一種對映異構體,寫作N[C@@H](C)C(=O)O
(見描述)。從氮碳鍵看,氫 ( H
)、甲基 ( C
) 和羧酸鹽 ( C(=O)O
) 基團順時針出現。 D -丙氨酸可以寫成N[C@H](C)C(=O)O
(見描述)。
雖然在 SMILES 中指定分支的順序通常並不重要,但在這種情況下它很重要;交換任何兩個組需要反轉手性指標。如果分支顛倒,因此丙氨酸寫為NC(C(=O)O)C
,那麼配置也會顛倒; L-丙氨酸寫為N[C@H](C(=O)O)C
(見描述)。其他寫法包括C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
和OC(=O)[C@H](C)N
。
第一個鍵通常出現在手性碳原子的左側,但如果 SMILES 以手性碳開頭,例如C(C)(N)C(=O)O
,那麼所有四個鍵都是右邊。但最先出現的(在這種情況下是[CH]
鍵)被用作對以下三個進行排序的參考: L -丙氨酸也可以寫作[C@@H](C)(N)C(=O)O
。
SMILES 規範包括對@
符號的詳細說明,以指示更複雜的手性中心周圍的立體化學,例如雙三角錐形分子構型。
同位素
同位素的指定數字等於原子符號前的整數同位素質量。其中一個原子是碳14的苯寫成[14c]1ccccc1
,氘代氯仿寫成[2H]C(Cl)(Cl)Cl
。
例子
分子 | 結構 | SMILES |
---|---|---|
氮氣 | N≡N | N#N
|
異氰酸甲酯(MIC) | CH3−N=C=O | CN=C=O
|
硫酸銅 (II) | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-]
|
香蘭素 | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
| |
褪黑激素(C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
| |
Flavopereirin(C17H15N2)
//譯者翻不出來,希望有人能幫忙補全 |
CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
| |
尼古丁(C10H14N2) | CN1CCC[C@H]1c2cccnc2
| |
魚尾藻毒素(C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
| |
除蟲菊素II(C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
| |
黃麴黴毒素B1(C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
| |
葡萄糖(β- D-吡喃葡萄糖)(C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
| |
Bergenin(cuscutin,一種樹脂)(C14H16O9)
//譯者翻不出來,希望有人能幫忙補全 |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
| |
加利福尼亞介殼蟲的一種信息素 | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
| |
(2 S ,5 R )-Chalcogran | CC[C@H](O1)CC[C@@]12CCCO2
| |
α-Thujone(C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
| |
硫胺素(維生素B1)(C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N
|
為了說明具有超過 9 個環的分子,請考慮頭孢他汀 -1, [12]一種具有經驗式C 54 H 74 N 2 O 10的甾體 13 環吡嗪,從印度洋半脊索動物Cephalodiscus gilchristi中分離出來:
從圖中最左邊的甲基開始:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
注意%
出現在 9 以上的閉環標籤索引前面;見§ 環上面的§ 環。
SMILES 的其他例子
SMILES 符號在 Daylight Chemical Information Systems 提供的 SMILES 理論手冊中進行了廣泛的描述,並提供了許多說明性示例。 Daylight 的描繪實用程序為用戶提供了檢查他們自己的 SMILES 示例的方法,並且是一種有價值的教育工具。
發展
SMARTS是用於指定分子中的子結構模式的線符號。雖然它使用許多與 SMILES 相同的符號,但它還允許指定通配符原子和鍵,可用於定義化學數據庫搜索的子結構查詢。一種常見的誤解是基於 SMARTS 的子結構搜索涉及匹配 SMILES 和 SMARTS 字符串。事實上,SMILES 和 SMARTS 字符串都首先轉換為內部圖表示,然後搜索子圖同構。
SMIRKS 是「reaction SMILES」的超集和「reaction SMARTS」的子集,是用於指定反應變換的線符號。反應擴展的一般語法是REACTANT > AGENT > PRODUCT
(不帶空格),其中任何字段可以留空或填充以點 ( .
) 分隔的多個分子,以及其他依賴於基本語言的描述。原子還可以用數字標識(例如[C:1]
) 用於映射,例如[13]在 . [14]
SMILES 對應於離散的分子結構。然而,許多材料都是大分子,它們太大(而且通常是隨機的),無法方便地為其生成 SMILES。 BigSMILES 是 SMILES 的擴展,旨在為大分子提供有效的表示系統。 [15]
轉換
可以使用結構圖生成 (SDG) 算法將 SMILES 轉換回二維表示。 [16]這種轉換並不總是明確的。通過能量最小化方法實現向三維表示的轉換。有許多可下載和基於 Web 的轉換實用程序。
另請參照
- SMILES 任意目標規範(SMARTS),SMILES 的擴展,用於規範子結構查詢
- SYBYL Line Notation ,另一種行符號
- 國際化學品標識符(InChI), IUPAC的 SMILES 替代品
- Molecular Query Language ,一種查詢語言,也允許數值屬性,例如物理化學值或距離
- 化學開發套件,二維佈局和轉換軟件
- OpenBabel, JOELib, OELib (轉換)
參考
[[Category:编码]] [[Category:化学命名法]]
- ^ SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences. February 1988, 28 (1): 31–6. doi:10.1021/ci00057a005.
- ^ 2.0 2.1 SMILES. 2. Algorithm for generation of unique SMILES notation. Journal of Chemical Information and Modeling. May 1989, 29 (2): 97–101. doi:10.1021/ci00062a008.
- ^ SMILES. 3. DEPICT. Graphical depiction of chemical structures. Journal of Chemical Information and Modeling. August 1990, 30 (3): 237–43. doi:10.1021/ci00067a005.
- ^ https://wayback.archive-it.org/2118/20100925010036/http://64.251.202.97/pubs/asist2002/17-swanson.pdf
|chapterurl=
缺少標題 (幫助) (PDF). The Entrance of Informatics into Combinatorial Chemistry. Medford, NJ: Information Today. 2004: 205. ISBN 978-1-57387-229-4. - ^ Acknowledgements on Daylight Tutorial smiles-etc page. 1998 [24 June 2013].
- ^ SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. 1987. Report No. EPA/600/M-87/021.
- ^ SMILES Tutorial: What is SMILES?. U.S. EPA. [2012-09-23]. (原始內容存檔於28 March 2008).
- ^ https://doi.org/10.1007%2F11530084_13
|chapterurl=
缺少標題 (幫助). Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples. Lecture Notes in Computer Science 3615. Berlin: Springer. 2005: 145–157 [2013-02-12]. ISBN 978-3-540-27967-9. doi:10.1007/11530084_13. - ^ NLP-inspired structural pattern recognition in chemical application.. Pattern Recognition Letters. August 2014, 45: 11–16. doi:10.1016/j.patrec.2014.02.012.
- ^ Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences.. Pattern Recognition. November 2015, 48 (11): 3749–3756. doi:10.1016/j.patcog.2015.05.001.
- ^ Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay. Journal of Chemical Ecology. March 1990, 16 (3): 861–876. PMID 24263601. doi:10.1007/BF01016496.
- ^ CID 183413. PubChem. [May 12, 2012] (英語).
- ^ SMIRKS Tutorial. Daylight Chemical Information Systems, Inc. [29 October 2018].
- ^ Reaction SMILES and SMIRKS. Daylight Chemical Information Systems, Inc. [29 October 2018].
- ^ BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules. ACS Central Science. September 2019, 5 (9): 1523–1531. PMC 6764162 . PMID 31572779. doi:10.1021/acscentsci.9b00476.
- ^ Reviews in Computational Chemistry 13. New York: Wiley-VCH. 1999: 313–398. ISBN 978-0-470-12590-8. doi:10.1002/9780470125908.ch6.