Zum Inhalt

Computing Gram Matrix for SMILES Strings Using RDKFingerprint and Sinkhorn-Knopp Algorithm

  • 2026
  • OriginalPaper
  • Buchkapitel
Erschienen in:

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Abstract

SMILES (Simplified Molecular Input Line Entry System) strings are widely used to represent molecular structures in cheminformatics and drug discovery. However, effectively transforming these string-based representations into meaningful numerical features for machine learning remains a significant challenge due to the complex, non-Euclidean nature of molecular structures. Traditional fingerprint-based and deep learning approaches often struggle with scalability, interpretability, or computational efficiency. Our approach leverages the Morgan Fingerprint to generate molecular feature representations, followed by a pairwise kernel function to compute a structured similarity matrix. We then refine this matrix using the Sinkhorn-Knopp algorithm, ensuring it satisfies probabilistic constraints. To reduce dimensionality, we apply Kernel Principal Component Analysis (PCA), producing compact embeddings suitable for downstream machine learning tasks. We conduct a comprehensive empirical evaluation of the proposed method which is assessed for drug subcategory prediction (classification task) and solubility AlogPS “aqueous solubility and octanol/water partition coefficient” (regression task) using the benchmark SMILES string dataset. The outcomes show the proposed method outperforms baseline methods in supervised analysis and has potential uses in molecular design and drug discovery. By integrating kernel-based learning with probabilistic refinement, our method offers a promising alternative to existing cheminformatics techniques.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Technik"

Online-Abonnement

Mit Springer Professional "Technik" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 390 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Maschinenbau + Werkstoffe




 

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Titel
Computing Gram Matrix for SMILES Strings Using RDKFingerprint and Sinkhorn-Knopp Algorithm
Verfasst von
Sarwan Ali
Haris Mansoor
Prakash Chourasia
Imdad Ullah Khan
Murray Patterson
Copyright-Jahr
2026
DOI
https://doi.org/10.1007/978-3-032-02489-3_20
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
Dieser Inhalt ist nur sichtbar, wenn du eingeloggt bist und die entsprechende Berechtigung hast.
    Bildnachweise
    AvePoint Deutschland GmbH/© AvePoint Deutschland GmbH, NTT Data/© NTT Data, Wildix/© Wildix, arvato Systems GmbH/© arvato Systems GmbH, Ninox Software GmbH/© Ninox Software GmbH, Nagarro GmbH/© Nagarro GmbH, GWS mbH/© GWS mbH, CELONIS Labs GmbH, USU GmbH/© USU GmbH, G Data CyberDefense/© G Data CyberDefense, Vendosoft/© Vendosoft, Kumavision/© Kumavision, Noriis Network AG/© Noriis Network AG, WSW Software GmbH/© WSW Software GmbH, tts GmbH/© tts GmbH, Asseco Solutions AG/© Asseco Solutions AG, AFB Gemeinnützige GmbH/© AFB Gemeinnützige GmbH, Ferrari electronic AG/© Ferrari electronic AG