Cambridge Structural Database - Cambridge Structural Database

Cambridge Structural Database
Database.png
Contente
Descrição
Contato
Centro de Pesquisa Cambridge Crystallographic Data Center
Acesso
Formato de dados .cif
Local na rede Internet
URL do serviço da web www .ccdc .cam .ac .uk / structure
Ferramentas
Rede WebCSD
Estar sozinho

O Cambridge Structural Database ( CSD ) é um repositório e um recurso validado e com curadoria para os dados estruturais tridimensionais de moléculas geralmente contendo pelo menos carbono e hidrogênio , compreendendo uma ampla gama de moléculas orgânicas , metal-orgânicas e organometálicas . As entradas específicas são complementares a outras bases de dados cristalográficas , como Protein Data Bank (PDB), Inorganic Crystal Structure Database e International Center for Diffraction Data . Os dados, normalmente obtidos por cristalografia de raios-X e menos frequentemente por difração de elétrons ou difração de nêutrons , e enviados por cristalógrafos e químicos de todo o mundo, são acessíveis gratuitamente (conforme depositados pelos autores) na Internet através do site da organização principal do CSD ( CCDC, Repositório). O CSD é supervisionado por uma empresa sem fins lucrativos chamada Cambridge Crystallographic Data Center , CCDC.

O interior da sede do CCDC em Cambridge, Reino Unido

O CSD é um repositório amplamente utilizado para estruturas cristalinas orgânicas e metal-orgânicas de pequenas moléculas para cientistas. As estruturas depositadas no Cambridge Crystallographic Data Center (CCDC) estão publicamente disponíveis para download no momento da publicação ou mediante consentimento do depositante. Eles também são enriquecidos cientificamente e incluídos no banco de dados dos softwares oferecidos pelo centro. Subconjuntos direcionados do CSD também estão disponíveis gratuitamente para apoiar o ensino e outras atividades.

História

O CCDC surgiu das atividades do grupo de cristalografia liderado por Olga Kennard OBE FRS no Departamento de Química Orgânica, Inorgânica e Teórica da Universidade de Cambridge . A partir de 1965, o grupo começou a coletar dados bibliográficos, químicos e de estrutura cristalina publicados para todas as pequenas moléculas estudadas por raios-X ou difração de nêutrons . Com o rápido desenvolvimento da computação nessa época, essa coleção foi codificada em formato eletrônico e ficou conhecida como Cambridge Structural Database (CSD).

O CSD foi um dos primeiros bancos de dados científicos numéricos a começar a operar em qualquer lugar do mundo, e recebeu bolsas acadêmicas do UK Office for Scientific and Technical Information e, em seguida, do UK Science and Engineering Research Council . Esses fundos, juntamente com as subvenções dos Centros Afiliados Nacionais, possibilitaram o desenvolvimento do CSD e seu software associado durante as décadas de 1970 e 1980. Os primeiros lançamentos do Sistema CSD para os Estados Unidos, Itália e Japão ocorreram no início dos anos 1970. No início da década de 1980, o Sistema CSD estava sendo distribuído em mais de 30 países. Em 2014, o Sistema CSD foi distribuído para acadêmicos em 70 países.

Durante a década de 1980, o interesse de empresas farmacêuticas e agroquímicas pelo Sistema CSD aumentou significativamente. Isso levou ao estabelecimento do Cambridge Crystallographic Data Center (CCDC) como uma empresa independente em 1987, com o status legal de uma instituição de caridade sem fins lucrativos e com suas operações supervisionadas por um conselho internacional de governadores. O CCDC mudou-se para instalações construídas especificamente no local do Departamento de Química da Universidade em 1992.

Kennard aposentou-se como diretor em 1997 e foi sucedido por David Hartley (1997-2002) e Frank Allen (2002-2008). Colin Groom foi nomeado diretor executivo de 1 de outubro de 2008 a setembro de 2017. E, mais recentemente, Juergen Harter foi nomeado CEO em junho de 2018.

Produtos de software CCDC diversificados para o uso de dados cristalográficos em aplicações nas ciências da vida e cristalografia. Muito desse desenvolvimento e marketing de software é realizado pela CCDC Software Limited (fundada em 1998), uma subsidiária integral que concede todos os seus lucros à CCDC.

Embora o CCDC seja uma organização autoadministrada, ele mantém vínculos estreitos com a Universidade de Cambridge e é uma instituição parceira universitária qualificada para treinar alunos de pós-graduação para graus superiores (PhD, MPhil).

O CCDC estabeleceu aplicações e operações de suporte nos EUA em outubro de 2013, inicialmente em Rutgers, a State University of New Jersey , onde está localizado junto ao RCSB Protein Data Bank

Conteúdo

Estrutura milionésima adicionada ao CSD
Estrutura milionésima adicionada ao CSD, ID do CSD: XOPCAJ

O CSD é atualizado com cerca de 50.000 novas estruturas a cada ano e com melhorias nas entradas existentes. As entradas (estruturas) no repositório são liberadas para acesso público assim que a entrada correspondente aparece na literatura científica revisada por pares. Enquanto isso, os dados também podem ser depositados e publicados diretamente por meio do CSD, sem um artigo científico de acompanhamento, o que é conhecido como Comunicação do CSD .

Periodicamente, são relatadas estatísticas gerais sobre a amplitude de acervos de refrigerantes, por exemplo, o relatório de janeiro de 2014. A partir de janeiro de 2019, as estatísticas resumidas são as seguintes:

Inquerir estruturas % de refrigerante
Nº total de estruturas 995.907 100,0
# de diferentes compostos 900.984 -
# de fontes de literatura 2.004 -
Estruturas orgânicas 431.037 43,5
Presente de metal de transição 478.138 48,2
metal alcalino ou alcalino-terroso presente 48.056 4,8
metal do grupo principal presente 101.948 10,3
Coordenadas 3D presentes 937.809 94,6
Coordenadas sem erros 926.422 98,81
Estudos de nêutrons 2.142 0,2
Estudos de difração de pó 4.761 0,5
Baixa / alta temp. estudos 503.368 50,8
Configuração absoluta determinada 28.834 2,9
Desordem presente na estrutura 256.019 25,8
Estruturas polimórficas 29.817 3,0
Fator R <0,100 935.419 94,4
Fator R <0,075 845.708 85,3
Fator R <0,050 553.042 55,8
Fator R <0,030 121.806 12,3
Número de átomos com coordenadas 3D 85.791.623 -

Em janeiro de 2019, os 25 principais periódicos científicos em termos de publicação de estruturas no repositório CSD eram:

1. 73.070 estruturas foram relatadas em Inorg. Chem.
2. 62.072 estruturas foram relatadas em Dalton & J. Chem. Soc., Dalton Trans.
3. 54.160 estruturas foram relatadas em Organometálicos
4. 48.967 estruturas foram relatadas em J. Am. Chem. Soc.
5. 42.422 estruturas foram relatadas em Acta Crystallogr. Sect. E
6. 32.610 estruturas foram relatadas em Chem. EUR. J.
7. 29.790 estruturas foram relatadas em J. Organomet. Chem.
8. 29.640 estruturas foram relatadas em Angew. Chem. Int. Ed.
9. 28.682 estruturas foram relatadas em Inorg. Chim. Acta
10. 28.351 estruturas foram relatadas em Chem. Comum. & J. Chem. Soc.
11. 27.328 estruturas foram relatadas em Comunicações CSD
12. 26.774 estruturas foram relatadas em Acta Crystallogr. Sect. C
13. 26.734 estruturas foram relatadas no poliedro
14. 24.045 estruturas foram reportadas em Eur. J. Inorg. Chem.
15. 23.483 estruturas foram relatadas em J. Org. Chem.
16. 22.286 estruturas foram relatadas em Cryst. Crescimento Des.
17. 22.011 estruturas foram relatadas em CrystEngComm
18. 15.985 estruturas foram relatadas em cartas orgânicas
19. 15.424 estruturas foram relatadas em Z. Anorg. Allg. Chem.
20. 14.864 estruturas foram relatadas em Acta Crystallogr. Sect. B
21. 13.909 estruturas foram relatadas no Tetraedro 8.597 estruturas foram relatadas como comunicação privada para o CSD
22. 12.734 estruturas foram relatadas em J. Mol. Struct.
23. 11.234 estruturas foram relatadas em Tetrahedron Lett.
24. 9.150 estruturas foram reportadas em Eur. J. Org. Chem.
25. 8.789 estruturas foram relatadas no New Journal of Chemistry


Esses 25 periódicos respondem por 704.541 dos 996.193 ou 70,7% das estruturas do CSD.

Esses dados mostram que a maioria das estruturas são determinadas por difração de raios-X, com menos de 1% das estruturas sendo determinadas por difração de nêutrons ou difração de pó . O número de coordenadas sem erros foi considerado uma porcentagem das estruturas para as quais as coordenadas 3D estão presentes no CSD.

A importância dos arquivos de fator de estrutura, mencionados acima, é que, para estruturas CSD determinadas por difração de raios-X que possuem um arquivo de estrutura, um cristalógrafo pode verificar a interpretação das medidas observadas.


Tendência de crescimento

Historicamente, o número de estruturas no CSD cresceu a uma taxa aproximadamente exponencial, ultrapassando o marco de 25.000 estruturas em 1977, o marco de 50.000 estruturas em 1983, o marco de 125.000 estruturas em 1992, o marco de 250.000 estruturas em 2001, o marco de 500.000 estruturas em 2009, e o marco de 1.000.000 de estruturas em 8 de junho de 2019. A milionésima estrutura adicionada ao CSD é a estrutura de cristal de 1- (7,9-diacetil-11-metil-6H-azepino [1,2-a] indol- 6-il) propan-2-ona.

Tendência de crescimento da estrutura em refrigerante de 1965 a 2018
Número de estruturas publicadas por ano
Ano # Publicados Total
2018 53429 974.653
2017 55031 921.224
2016 54975 866.193
2015 53610 811.218
2014 50759 757.608
2013 48025 706.849
2012 45199 661.121
2011 43882 615.922
2010 41240 572.040
2009 40627 530.800
2008 36802 490.173
2007 36569 453.371
2006 34713 416.802
2005 31733 382.089
2004 27988 350.356
2003 26287 322.368
2002 24306 296.081
2001 21781 271.775
2000 19998 249.994
1999 18780 229.996
1998 17289 211.216
1997 15896 193.927
1996 15487 178.031
1995 13001 162.544
1994 12290 149.543
1993 12032 137.253
1992 10691 125.221
1991 9941 114.530
1990 8935 104.589
1989 7750 95.654
1988 7644 87.904
1987 7472 80.260
1986 6873 72.788
1985 6911 65.915
1984 6511 59.004
1983 5250 52.493
1982 5233 47.243
1981 4666 42.010
1980 4252 37.344
1979 3876 33.092
1978 3415 29.216
1977 3092 25.801
1976 2735 22.709
1975 2171 19.974
1974 2142 17.803
1973 1991 15.661
1972 1969 13.670
1971 1548 11.701
1970 1261 10.153
1969 1130 8.892
1968 975 7.762
1967 936 6.787
1966 683 5.851
1965 656 5.168
1923-1964 4512 4.512

Nota: os dados de 1923-1964 são agregados na última linha da tabela.

Formato de arquivo

Modelo impresso em 3D de ácido benzóico
Modelo impresso em 3D do ácido benzóico, obtido a partir da determinação da estrutura do cristal, criado usando coordenadas do Cambridge Structural Database e via o programa CCDC Mercury . O modelo superior mostra uma única molécula de ácido benzóico. O modelo inferior mostra um dímero ligado por hidrogênio.

O principal formato de arquivo para deposição de estrutura CSD, adotado por volta de 1991, é o formato de "arquivo de informações cristalográficas" , CIF.

Os arquivos CSD depositados podem ser baixados no formato CIF. Os arquivos CSD validados e com curadoria podem ser exportados em uma ampla gama de formatos, incluindo CIF, MOL, Mol2, PDB, SHELX e XMol, usando ferramentas do Sistema CSD.

O CCDC usa dois códigos diferentes para distinguir entre o conjunto de dados depositado e a entrada CSD com curadoria. Por exemplo, uma ' Comunicação CSD ' específica de uma molécula orgânica foi depositada no CCDC e recebeu o número de deposição 'CCDC-991327'. Isso permite o acesso público gratuito aos dados depositados. Dos dados depositados, as informações selecionadas são extraídas para preparar a entrada de CSD validada e com curadoria, à qual foi atribuído o refcode 'MITGUT'. Como parte do processo de curadoria, o CCDC também aplica um algoritmo, DeCIFer, para ajudar os editores a atribuir química a estruturas quando essas representações (por exemplo, tipos de títulos e atribuições de cobrança, etc.) estão ausentes dos arquivos CIF originais enviados. A entrada validada e com curadoria está incluída nas distribuições CSD System e WebCSD, com disponibilidade restrita àqueles que fazem contribuições apropriadas.

Visualizando os dados

Modelo impresso em 3D da estrutura de 1-metil-2,3,4,5-tetraquis ((trimetilsilil) etinil) -1H-pirrole. Identificador CSD: XURZAN

Cada conjunto de dados no CSD pode ser visualizado e recuperado abertamente usando o serviço gratuito Access Structure . Por meio deste serviço baseado em navegador da web, os usuários podem visualizar o conjunto de dados em 2D e 3D, obter algumas informações básicas sobre a estrutura e baixar o conjunto de dados depositado. Mais funções de pesquisa avançada e informações selecionadas estão disponíveis por meio do sistema CSD baseado em assinatura .

Além de usar o sistema CSD , os arquivos de estrutura podem ser visualizados usando um dos vários programas de computador de código aberto , como Jmol . Alguns outros programas gratuitos, mas não de código aberto, incluem MDL Chime , Pymol , UCSF Chimera , Rasmol , WINGX, o CCDC fornece uma versão gratuita de seu programa de visualização Mercury .

A partir de 2015, o Mercury da CCDC também fornece a funcionalidade de gerar arquivos prontos para impressão 3D a partir de estruturas em CSD.

Veja também

Referências

links externos