Open access
Author
Date
2023-06Type
- Monograph
ETH Bibliography
yes
Altmetrics
Abstract
Diese Arbeit analysiert, wie geeignet Empfehlungssysteme für die Auswahl von passenden Journals für die Publikation wissenschaftlicher Artikel sind. Weiterhin gibt sie Einblick auf Basis welcher Feature-Engineerings und Klassifikationssysteme Empfehlungssysteme qualitativ die besten Empfehlungen treffen können. Hierzu wurde basierend auf dem Verfahren «Klassifikation» eine Analyse von 12 verschiedenen Kombinationen aus drei Feature-Engineerings – term frequency - inverse document frequency (tf-idf), word2vec, Embedding from Language Model (ELMo) – und aus vier Klassifikationssystemen – Logistic Regression (LR), Multi-Layer Perceptron Classifier (MLP), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) – durchgeführt. Diese Kombinationen wurden mit drei verschiedenen Datensätzen aus den Fachgebieten Physik, Chemie und Biologie getestet. Die Ergebnisse dieser Analyse zeigen, dass mit der Kombination tf-idf und LR die höchste Genauigkeit von 87% (Physik), 77% (Chemie) und 73% (Biologie) für top-20 erzielt werden kann. Bei isolierter Betrachtung der erreichten Genauigkeit unterschiedlicher Klassifikationssysteme erzielte LR in Kombination mit allen drei Feature-Engineerings bei allen drei Fachgebieten durchschnittlich eine höhere Genauigkeit als jedes der anderen Klassifikationssysteme. Bei den Feature-Engineerings zeigt ein Vergleich zwischen den durchschnittlich erzielten Genauigkeiten, dass die Verwendung von word2vec und ELMo in Kombination mit allen Klassifikationssystemen zu ähnlichen Genauigkeiten führt. Die Genauigkeiten dieser Kombinationen sind zudem höher als jene von tf-idf. Show more
This work analyses recommender systems' suitability for selecting the most appropriate journals to publish scientific articles. Furthermore, it gives insight into which feature engineering and classification systems can be used by recommendation systems to achieve the best recommendations. For this purpose, based on the "classification" procedure, an analysis of twelve different combinations of three feature engineerings was performed - term frequency - inverse document frequency (tf-idf), word2vec, Embedding from Language Model (ELMo) - and of four classification systems - Logistic Regression (LR), Multi-Layer Perceptron Classifier (MLP), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN). These combinations were tested with three different datasets from physics, chemistry, and biology. The results of this analysis show that the highest accuracy of 87% (physics), 77% (chemistry) and 73% (biology) for top-20 can be achieved with the combination of tf-idf and LR. When considering the accuracy of different classification systems in isolation, LR, combined with all three feature engineerings, on average achieved higher accuracy than any of the other classification systems for all three subject areas. For feature engineering, a comparison between the average accuracies shows that using word2vec and ELMo combined with all classification systems results in similar accuracies. The accuracies of these combinations are also higher than those of tf-idf. Show more
Permanent link
https://doi.org/10.3929/ethz-b-000619622Publication status
publishedExternal links
Search print copy at ETH Library
Journal / series
Churer Schriften zur InformationswissenschaftVolume
Publisher
Fachhochschule GraubündenSubject
Content-based Filtering; Convolutional Neural Networks (CNN); Embeddings from Language Models (ELMo); Recommendation System; Feature Engineering; Journal; Classification System; Long Short Term Memory (LSTM); Recurrent Neural Network (RNN); Content-Based Recommendation System; Logistic Regression; Term Frequency - Inverse Document Frequency (tf-idf); Scientific Publication; word2vec; Journal Recommender; Machine Learning; Natural Language Processing (NLP)Organisational unit
08534 - Knowledge Management ETH-Bibliothek / Knowledge Management ETH Library
Notes
Diese Publikation entstand im Rahmen einer Thesis zum Master of Science FHGR in Business Administration, Studienrichtung Information and Data Management.More
Show all metadata
ETH Bibliography
yes
Altmetrics