SMILES
SMILES (iz angleškega Simplified Molecular Input Line Entry Specification) je specifikacija, ki za nedvoumen opis strukture molekul uporablja kratke nize ASCII znakov. Specifikacijo SMILES lahko večina urejevalnikov molekul pretvori nazaj v dvodimenzionalno risbo ali trodimenzionalen model molekule.
Izvirno specifikacijo SMILES sta v poznih 1980. letih razvila Arthur in David Weininger. Specifikacijo so kasneje razširili in dodelali drugi avtorji, med katerimi je najpomembnejši Daylight Chemical Information Systems Inc.. Leta 2007 je neformalna skupina kemikov Blue Obelisk razvila javno dostopen standard, imenovan "OpenSMILES". Med druge linearne notacije spadajo Wiswesser Line Notation (WLN), ROSDAL in SLN (Tripols Inc.).
Avgusta 2006 je IUPAC kot standard za prikazovanje kemijskih formul uvedel mednarodni kemijski identifikator (InChI). SMILES je po splošnem mnenju nekoliko boljši, ker je malo bolj čitljiv kot InChI in ima široko programsko podporo z obširnim teoretičnim ozadjem, na primer s teorijo grafov.
Terminologija
[uredi | uredi kodo]Termin SMILES se nanaša na vrstični sistem znakov za kodiranje molekularnih struktur in bi se moral striktno imenovati "niz SMILES". Termin se uporablja tudi za druge namene, vendar je njegov pomen v posameznem primeru povsem razviden iz konteksta. Nekaj zmede pri uporabi lahko povzročita naziva Kanonski in Izomerni SMILES. Izrazi, ki opisujejo različne atribute nizov SMILES, se med seboj ne izključujejo.
Isto molekulo se običajno lahko zapiše z več enakovrednimi SMILES. Strukturo etanola (C2H5OH) se lahko na primer zapiše s CCO, OCC in C(O)C. Da bi se za vsako strukturo generiral en sam SMILES, ne glede na vrstni red atomov v molekuli, so se razvili številni algoritmi. Ta SMILES je za vsako strukturo edinstven, čeprav je odvisen od kanonizacijskega algoritma, ki ga je generiral, in se imenuje Kanonski SMILES. Vsi algoritmi najprej pretvorjo SMILES v notranjo predstavitev molekularne strukture in ne manipulirajo enostavno z nizi znakov kot se včasih domneva. Za generiranje Kanonskega SMILES je več algoritmov, med katerimi so najopaznejši tisti, ki so jih razvili v Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT in Chemical Computing Group. Skupne aplikacije Kanonskega SMILES so indeksirane in zagotavljajo edinstvenost molekul v bazah podatkov.
Notacija SMILES omogoča tudi specificiranje konfiguracij na tetraedričnih centrih in dvojnih vezeh. Tovrstne strukture kodira Izomerni SMILES, ki omogoča tudi natančno specifikacijo kiralnosti. Naziv Izomerni SMILES se uporablja tudi za SMILES za specificiranje izotopov.
Označevanje na osnovi grafa
[uredi | uredi kodo]V računalniški proceduri, ki temelji na grafu spojine, se najprej odstranijo vodikovi atomi, zatem pa se odprejo obroči in se razvijejo v obliko razvejanega drevesa. Mesta, kjer so obroči prekinjeni, se označujejo s številkami, ki omogočajo povezovanje veznih točk. Za označevanje mest, kjer se glavna veriga razveja, se uporabljajo oklepaji.
Primeri
[uredi | uredi kodo]Atomi
[uredi | uredi kodo]Atomi se pišejo z njihovimi simboli v oglatih oklepajih, na primer [Ag] za srebro. Izjema so "organski" elementi B, C, N, O, P, S, F, Cl, Br in I, pri katerih se oklepaji lahko izpustijo. Izpuščeni oklepaji istočasno pomenijo pripadajoče število implicitnih vodikovih atomov. Primer: SMILES za vodo je preprosto O.
Atomi, ki imajo enega ali več električnih nabojev (ioni), se pišejo v oklepajih. Če je na element vezan vodik, simbolu elementa sledi simbol H in število pozitivnih (+) ali negativnih (-) nabojev. Edina izjema je amonij, ki se piše z NH4. Če je število nabojev večje od 1, se njihovo število lahko piše na primer s "Ti+4" ali "Ti++++" za titan(IV) oziroma Ti4+. Hidroksidni ion se torej zapiše z [OH-], oksonijev ion z [OH+3], kobaltov(III) kation (Co3+) pa s [Co+3] ali [Co+++].
Vezi
[uredi | uredi kodo]Če ni posebej označeno, se vezi med alifatskimi atomi obravnavajo kot enojne in se ne pišejo. Primer: etanol (CH2-CH2-OH) se zapiše s CCO. Mesta, na katerih se stikajo obroči, so označena s številkami na dveh nesosednjih atomih. Cikloheksan in dioksan se zato zapišeta kot C1CCCCC1 oziroma O1CCOCC1. Vezna mesta na naslednjem obroču so označena s številko 2. in tako naprej. Naftalen se zato zapiše kot c1cccc2c1cccc2. Da ne bi prihajalo do nesporazumov, se obroči od 10. dalje označujejo s predznakom '%'. Oznaka ~C12~ zato pomeni, da označeni ogljikov atom zapira 1. in 2. obroč, oznaka ~C%12~ pa da gre za 12. obroč v neki strukturi. Dvojne in trojne vezi se označujejo s simboloma '=' oziroma '#'. SMILES O=C=O pomeni ogljikov dioksid (CO2), C#N pa vodikov cianid (HCN).
Aromatičnost
[uredi | uredi kodo]Aromatski atomi C, O, S in N so prikazani z malimi črkami 'c', 'o', 's' in 'n'. Benzen, piridin in furan se s SMILES zapišejo s c1ccccc1, n1ccccc1 in o1cccc1. Vezi med aromatskimi atomi so po dogovoru aromatske, vendar se lahko zapišejo zudi eksplicitno s simbolom ':'. Aromatski atomi so lahko med seboj povezani tudi z enojnimi vezmi, zato se bifenil lahko zapiše s c1ccccc1-c2ccccc2. Aromatski dušik, vezan na vodik, na primer v pirolu, mora biti zapisan z [nH]. Imidazol se zato v notaciji SMILES zapiše z n1c[nH]cc1.
Algoritma Daylight in OpenEye za generiranje kanonskega SMILES obravnavata aromatičnost drugače.
Razvejanost
[uredi | uredi kodo]Stranske verige se pišejo v oklepajih, na primer s CCC(=O)O za propanojsko kislino in za C(F)(F)F fluoroform. Substituirani obroči se lahko pišejo z mestom razvejanja v obroču, na primer s COc(c1)cccc1C#N in COc(cc1)ccc1C#N. Zapisa predstavljata izomera 3 in 4-cianoanizol. Takšen zapis zapisovanja substituiranih obročev je za uporabnika malo bolj razumljiv.
Stereokemija
[uredi | uredi kodo]Konfiguracije ob dvojni vezi se opisujejo z znakoma "/" in "\". Primer: zapis F/C=C/F predstavlja trans-difluoroeten, v katerem sta flourova atoma na nasprotnih straneh dvojne vezi. Zapis F/C=C\F je eden od možnih zapisov cis-difluoroetena, v katerem sta fluorova atoma na isti strani dvojne vezi.
Konfiguracija na kvartetnem ogljiku se opiše z znakoma @ ali @@. L-alanin, ki je najbolj pogost anantiomer amino kisline alanin, se lahko zapiše z N[C@@H](C)C(=O)O. Simbola @@ pomenita, da si substituente vodik (H), metil (C) in karboksilat (C(=O)O) sledijo v smeri urnega kazalca, kadar gledamo od dušika vzdolž vezi do hiralnega centra. D-alanin se lahko zapiše z N[C@H](C)C(=O)O. Vrstni red substituent v nizih SMILES je zelo pomemben in D-alanin se lahko zapiše tudi z N[C@@H](C(=O)O)C.
Izotopi
[uredi | uredi kodo]Izotopi se zapisujejo s celoštevilčnimi vrednostmi njihove atomske mase, katerim sledi simbol izotopa. Benzen z enim ogljikom C14, se zapiše z [14c]1ccccc1, devterokloroform pa z [2H]C(Cl)(Cl)Cl.
Zapisi nekaterih spojin
[uredi | uredi kodo]Molekula | Zgradba | SMILES |
---|---|---|
Dušik | N≡N | N#N |
Metil izocianat (MIC) | CH3–N=C=O | CN=C=O |
Bakrov(II) sulfat | Cu2+ SO42- | [Cu+2].[O-]S(=O)(=O)[O-] |
Enantotoksin (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO | |
Piretrin II (C21H28O3) | COC(=O)C(\C)=C\C1C(C)(C)[C@H]1C(=O)O[C@@H]2C(C)=C(C(=O)C2)CC=CC=C | |
Aflatoksin B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
Glukoza (glukopiranoza) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@@H](O)1 | |
Kuskutin ali bergenin (smola) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
Feromon kalifornijskega insekta iz reda Hemiptera | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
2S,5R-halkogran: ferpmon hrošča Pityogenes chalcographus[1] | CC[C@H](O1)CC[C@@]12CCCO2 | |
Vanilin | O=Cc1ccc(O)c(OC)c1 | |
Melatonin (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 | |
Flavopereirin (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2Nc4c3cccc4 | |
Nikotin (C10H14N2) | CN1CCC[C@H]1c2cccnc2 | |
Alfa-tujon (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
Tiamin (C12H17ClN4OS+) (vitamine B1) |
OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2 |
Prikaz molekule cefalostatina-1.[2] Cefalostatin je steroidni trisdekaciklični pirazin z empirično formulo C54H74N2O10, ki so ga izolirali iz polhordate Cephalodiscus gilchristi iz Indijskega oceana:
Kodiranje se začne pri najbolj levi metilni skupini na zgornji sliki. SMILES cefalostatina-1 je:
C[C@@](C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
Drugi primeri SMILES
[uredi | uredi kodo]Notacija SMILES je obširno opisana v priročniku SMILES theory manual, ki ga je izdala družba Daylight Chemical Information Systems. V priročniku so tudi številni izbrani primeri. Ena od rutin (depict utility Arhivirano 2001-12-02 na Wayback Machine.) omogoča uporabniku preverjanje njegovih primerov SMILES in je zato zelo uporabno orodje za učenje.
Pretvarjanje
[uredi | uredi kodo]SMILES se lahko z raznimi programskimi orodji[3] pretvori nazaj v dvodimenzionalen prikaz. Pretvorba ni vedno nedvoumna. Možna je tudi pretvorba v tridimenzionalen prikaz. Za pretvarjanje SMILES so na spletu na razpolago številna orodja.
Glej tudi
[uredi | uredi kodo]Zunanje povezave
[uredi | uredi kodo]Specifikacije
[uredi | uredi kodo]- "SMILES - A Simplified Chemical Language"
- The OpenSMILES home page
- "SMARTS - SMILES Extension"
- Daylight SMILES tutorial
- Parsing SMILES
Programska orodja
[uredi | uredi kodo]- Online SMILES Translator and Structure File Generator Arhivirano 2001-05-01 na Wayback Machine.
- PubChem server side structure editor
- smi23d – generiranje 3D strukture
- Daylight Depict Arhivirano 2001-12-02 na Wayback Machine. – pretvarjanje SMILES v grafiko
- GIF/PNG-Creator for 2D Plots of Chemical Structures Arhivirano 2004-10-15 na Wayback Machine.
- JME molecule editor Arhivirano 2001-04-28 na Wayback Machine.
- ACD/ChemSketch Arhivirano 2006-10-18 na Wayback Machine.
- Marvin Arhivirano 2007-11-07 na Wayback Machine. (ChemAxon) – generator in konverter
- Instant JChem Arhivirano 2007-11-12 na Wayback Machine. (ChemAxon)
- JChem for Excel Arhivirano 2010-02-03 na Wayback Machine. (ChemAxon)
- Smormo-Ed * InChI.info
- Balloon
- Dingo Arhivirano 2009-11-05 na Wayback Machine.
- Open Babel
- Bioclipse
Sklici
[uredi | uredi kodo]- ↑ ISOLATION OF PHEROMONE SYNERGISTS OF BARK BEETLE, Pityogenes chalcographus, FROM COMPLEX INSECT-PLANT ODORS BY FRACTIONATION AND SUBTRACTIVE-COMBINATION BIOASSAY
- ↑ PubChem Compound CID=183413 (Cephalostatin-1)
- ↑ Structure Diagram Generation algorithms, Helson, 1999