Insuma GmbH - Smart Search Engines
Insuma Logo
Deutsche Version

Your project:

Your search engine:




Frequently Asked Questions zu InsumaScout - Rate Tutorial

Die "Frequently Asked Questions" Liste ist eine Auflistung der häufigst auftretenden Probleme. In vielen Fällen kann Sie Ihnen helfen, ein Problem zu lösen.

Die folgenden Fragen sollen erklären, wie das Rating der Dokumente am einfachsten erfolgen soll.
Wie erklärt sich der allgemeine InsumaScout-Workflow bestehend aus Dokumenten-Fetch, Dokumenten-Bewertung und Kategorisierung der Dokumente?
  1. Im ersten Schritt müssen in den Abschnitten Crawler options > URL settings: starting URLs, allowed URLs und disallowed URLs eingetragen werden. Diese legen fest, von welchen Domains aus der InsumaScout-Crawler starten soll, welche Domains nicht weiter verfolgt werden dürfen oder ob gar der Crawler nur auf den Start URLs operieren soll.
    NB: Es kann durchaus sinnvoll sein, die ersten Fetches und Dokumentenbewertungen nur auf Seiten von solchen Domains anzuwenden, von denen angenommen werden kann, dass sie relevante Ergebnisse liefern.
  2. Zudem müssen unter Crawler options > Relevant samples: relevant URLs und relevant text eingegeben werden. Diese initialisieren den Crawler-Filter für die Topic-Collection (den Collection-Filter). Die relevanten Textausschnitte können also entweder direkt eingegeben werden oder stammen aus externen Dokumenten-Quellen, deren URLs bekannt sind.
  3. Unter Indexer options > URL to category mapping werden Beispiel-Dokumente Kategorien zugeteilt. Diese definieren die spätere Zuteilung noch unannotierter Dokumente zu den Kategorien (Routing-Verfahren). Bitte beachten Sie, dass die Dokumente dieses Abschnittes nicht zum Training des Collection-Filters benutzt werden. Sollen diese Dokumente auch zum Training des Filters benutzt werden, so müssen Sie die URLs zudem in das Feld relevant URLs eintragen!
  4. Sie bekommen nun i.d.R. jede Woche einmal Dokumente geliefert, die der Collection-Filter als relevant eingestuft hat, d.h. die den Collection-Filter passiert haben. Diese Dokumente sollen im nächsten Schritt durch Ihre/n Themen-Experten bewertet werden. Dabei beeinflusst jede Dokumenten-Bewertung (sogenannte "Rates" den Collection-Filter und damit den Crawl-Vorgang selbst.
    Die Bewertung aller Dokumente liefert an den Collection-Filter einen sogenannten Fingerabdruck (Fingerprint). Dieser Fingerabdruck beruht auf Termhäufigkeiten: Kommen Terme häufig in solchen Dokumenten vor, die gut (+1) oder sehr gut (+2) bewertet wurden, so bekommen diese Terme ein hohes Gewicht im Fingerabdruck des Collection-Filters. Der Collection-Filter wird entsprechend abgeändert oder ergänzt. Der nächste Collection-Fetch orientiert sich am neuen Collection-Filter und liefert nun Dokumente, die mit den ursprünglichen Dokumenten des Core Textes sowie mit den neu bewerteten Dokumenten verwandt sind. Die Verwandtschaft wird durch die statistischen Ähnlichkeit der Fingerabdrucks-Vektoren gemessen.
  5. Die Dokumenten-Kategorisierung erfolgt vollkommen unabhängig vom Training des Collection-Filters. Sie wird in zwei Teilen aufgespalten:
    1. die manuelle Zuteilung von Dokumenten zu Kategorien und
    2. die automatische Zuteilung von noch unannotierten (also noch nicht manuell zugeteilten) Dokumenten zu den Kategorien durch das Routing-Verfahren
    Jede dieser Kategorisierungsart ist nicht exklusiv, d.h. Dokumente werden einer oder mehreren besten Kategorien zugeteilt. Dabei bleibt die manuelle Kategorisierung solange bestehen, bis sie manuell verändert wird. Die automatische Kategorisierung wird in jedem Crawler-Lauf (Crawler-Fetch) angepasst, d.h. sie bleibt nicht bestehen! Dabei dienen die manuell zugeteilten Dokumente als Muster (Kategorien-Fingerabdruck) für die Zuteilung der noch unannotierten Dokumente.

Was sind die Alternativen zu wöchentlichen Bewertungen? Können Dokumente in einem Massive Run komplett geliefert werden? Können Dokumente täglich geliefert werden?
Dokumente können selbstverständlich auch durch einen einzigen Crawler-Lauf geliefert werden. Voraussetzung ist, dass der Collection-Filter ordentlich trainiert wurde. Dies kann man daran sehen, dass pro Fetch mindestens 30 % relevante Dokumente geliefert werden. Zu diesem Zeitpunkt, der i.d.R. nach ca. 4-6 Wochen (oder Fetch-Rounds) erreicht wird, kann auch auf sogenannte Daily Fetches umgeschaltet werden. Dazu muss im Control-Center unter dem Abschnitt Crawler options > Freshness detection die File freshness auf 1 gesetzt werden (für tägliche Aktualisierung).
Sowohl der Massive Run als auch die tägliche Aktualisierung werden die bestehende Genauigkeit nicht mehr verbessern können, da für diese Option keine weiteren Dokumenten-Bewertungen vorgsehen sind.

Gibt es allgemeine Richtlinien für das Trainieren des Collection-Filters?
Das Training des Collection-Filters liegt zunächst vollkommen in Ihrem Ermessen. Sie müssen selbst eintscheiden, welche Dokumente zur Topic-Collection passen, also relevant, und welche irrelevant sind. Diese Beurteilung nehmen Sie selbst oder Ihr Themen-Experte vor. Sie bzw. Ihre Experten sollten jedoch beachten, dass der Collection-Filter die Dokumenten-Relevanz anhand von Term-Frequenzen misst. Er kann insbesondere Dokumente nicht semantisch analysieren. Ein Dokument wird also auch dann als relevant erkannt, wenn es das vorgegebene Thema diskreditiert. Eine semantische Analyse geschieht indirekt, indem Sie eingehende Dokumente der Fetches entsprechend bewerten. Die statistische Analyse im Hintergrund wird auch in folgenden Fetches unerwünschte Dokumente durchlassen. Zugleich wird sich deren Anzahl - bei entsprechender Dokumenten-Bewertung - vermindern.
Der Crawler-Filter braucht mindestens 50 mit mindestens +1 bewertete Dokumente, um verlässliche Entscheidungen über die Relevanz weiterer eintreffender Dokumente treffen zu können.

Wie beeinflusst die Kategorisierung den Crawler-Filter? Wie beeinflusst sie die Re-Kategorisierung?
Die Dokumenten-Kategorisierung beeinflusst nicht die Collection-Filter. Die Collection-Filter werden lediglich durch die Angaben in Crawler options > Relevant samples sowie durch Ihre Dokumenten-Bewertungen beeinflusst.
Die manuelle Kategorisierung beeinflusst das automatische Zuteilen von noch nicht kategorisierten Dokumenten. Diese werden der oder den Kategorien zugeteilt, welche Dokumente besitzen, deren Fingerabdrücke dem Dokument am ähnlichsten sind. Die manuelle Kategorisierung kann nur manuell verändert werden, die automatische Kategorisierung wird in jedem Crawler-Lauf ( Crawler-Fetch) verändert.

Wie soll ich mit dem IR-Problem "Precision vs. Recall" für mein spezielles Problem der Informationsbeschaffung umgehen?
Ein bekanntes Problem des Information-Retrieval ist, dass die Genauigkeit (oder Relevanz, Precision) der gelieferten Dokumente mit der Vollständigkeit (oder Recall) konkurriert. Dies bedeutet, dass entweder viele mehr oder weniger relevante Dokumente geliefert werden können oder aber nur wenige, daher aber um so relevantere Dokumente.
Sie müssen selbst entscheiden, ob Sie damit einverstanden sind, neben einigen guten auch viele irrelevante Dokumente geliefert zu bekommen. Dies ist i.d.R. sinnvoll, wenn Sie rasch Ihr Portal mit Zusatz-Inhalten ausstaffieren wollen. Oder aber Sie entscheiden sich für die genaue Suche, die nur wenige, dafür aber umso relevantere Dokumente durchlässt. Dies ist sinnvoll, wenn Sie bereits viele Dokumente über das Thema besitzen und auf der Suche nach sehr speziellen Unterthemen sind.

Können die Bewertungen auch nachträglich vorgenommen werden, d.h. nachdem die Dokumente bereits in die Collection aufgenommen wurden?
Ja, dies ist möglich. Günstigstenfalls sollten jedoch bereits soviele Dokumente bewertet worden sein (i.d.R. nach 4 Fetch-Rounds), dass gewährleistet werden kann, dass der Collection-Filter trainiert ist. Die Bewertung kann erfolgen, nachdem die Dokumente bereits in die Collection bzw. in Ihr Firmen-Portal aufgenommen werden.
Bei einer solchen Vorgehensweise nehmen Sie bewusst in Kauf, dass neben relevanten auch viele irrelevante Dokumente geliefert werden und in Ihrem Portal angezeigt werden. Die Dokumente lassen sich dabei jederzeit mittels der üblichen Dokumenten-Bewertungen (-2, -1) wieder aus dem Portal entfernen. Ihr Portalbenutzer wird übrigens mit Hilfe der Portal-Suche kaum solche irrelevanten Dokumente zu Gesicht bekommen. Diese werden ihm nämlich - ähnlich wie bei anderen (Internet-)Suchmaschinen auch in den letzten Ausgabeseiten präsentiert. Diese werden statistisch nur sehr selten besucht.

Gibt es eine Möglichkeit, Dokumente explizit auszuschließen, wenn zuvor festgelegte Bedingungen erfüllt sind, z.B. wenn gewisse Terme im Dokument vorkommen?
Sie haben ab dem kommenden InsumaScout-Release die Möglichkeit, über den Control-Center Abschnitt "Crawler options > Train filter" Filterterme direkt zu manipulieren, d.h. gewöhnliche Filterterme oder solche, die eindeutig nicht zum Themengebiet der Topic-Collection gehören, in eine sogenannte Kill-List einzutragen. Diese Filterterme werden im nächsten Crawler-Fetch nicht mehr zur Beurteilung der einkommenden Dokumente herangezogen. Eine explizite Ausschließung von Dokumenten auf Grund von vorgegebenen Termen ist zum gegenwärtigen Stand nicht vorgesehen.

Wie lange dauert voraussichtlich der Vorgang der Dokumenten-Bewertung (Stabilisierung des Crawler-Filters)? Kann dieser Zeitraum verkürzt werden und wie?
Der Vorgang der Dokumenten-Bewertung (Stabilisierung des Crawler-Filters) dauert i.d.R. und je nach Charakteristik des Themas (eng, weit) und Gewichtung zwischen Precision (Genauigkeit oder Relevanz der gefunden Dokumente) und Recall (Vollständigkeit der gefunden Dokumente) zwischen 4 bis 6 Wochen (Fetch-Rounds). Der Crawler-Filter ist trainiert, wenn mindestens 30 % der Dokumente als relevant (+1, +2) bewertet wurden.
Der Vorgang lässt sich zu jedem Zeitpunkt abbrechen. Ein sogenannter Massive run versorgt die Collection mit vielen Dokumenten. Diese können, nachdem sie in die Collection mit aufgenommen wurden, nachträglich bewertet und somit wieder aus der Collection entfernt werden.

Wie viele Dokumente müssen der Kategorisierung vorgegeben werden, damit diese ordentlich funktioniert?
Der Collection-Experte muss ca. 20 Dokumente manuell jeder (Sub-)Kategorie zuweisen, damit das Routing-Verfahren arbeiten kann. Das Routing-Verfahren teilt noch unannotierte Dokumente den jeweils am besten passenden (Sub-)Kategorien zu. Dabei arbeitet das Verfahren nicht exklusiv, d.h. Dokumente können einer oder mehreren am besten passenden (Sub-)Kategorien zugeordnet werden.

Können auch Dokumente aus Bibliotheksarchiven und Datenbanken geliefert werden?
Um Dokumente aus Bibliotheksarchiven und (Fach-)Datenbanken (dem sogenannten "Deep Web") liefern zu können, brauchen wir entsprechende Datenbank-Zugriffrechte, d.h. Datenbank-Passwörter. Wenn Sie uns diese mit den entsprechenden URLs liefern, kann auch das Deep-Web integriert werden. Dabei wird selbstverständlich die Datenbank oder das Archiv nicht vollständig neu indiziert, sondern es werden mit speziellen Suchanfragen relevante Antwort-Dokumente gefunden.

Ich habe einen relevanten Text in 'Crawler options > Relevant text' eingegeben und beim ersten Fetch round schlechte Ergebnisse erhalten. Warum muss der Text in separate Abschnitte untergliedert werden?
Sie haben sicher Ihren relevanten Text in nur einen einzigen Abschnitt eingetragen. Überprüfen Sie bitte zudem, ob Sie nur Schlüsselwörter oder tatsächlich Textausschnitte eingegeben haben. Falls Sie alle Schlüsselwörter in einen Abschnitt "gepackt" haben, nimmt der Crawler-Filter, an dass alle weiteren zu liefernden Dokumente eine ähnlich hohe Konzentration an Schlüsselwörter haben müssen und findet logischerweise kein einziges Dokument, das diesen zu hohen Kriterien genügt. Üblicherweise enthalten Dokumente ein bis drei Schlüsselwörter aus der Liste.
Wenn Sie lediglich Schlüsselwörter eintragen, so dürfen Sie maximal 3 solcher Terme pro Abschnitt eintragen mit je einer Leerzeile zwischen den Abschnitten.

Werden Seiten, welche der Crawler bereits besucht hatte, erneut besucht?
Die Seiten, welche der Crawler bereits besucht hat, werden erneut besucht und erscheinen wieder wenn sie sehr geändert wurden. Bestimmte Firmen posten z.B. die aktuelle Pressemitteilungen unter der gleichen URL. Das betrifft auch Seiten, die zu einem früheren Fetch mit -1 oder -2 bewertet wurden, da die aktuelle Version der Seite ja inzwischen relevant geworden sein mag.

Ist es möglich, URLs einzugeben, die zwingend in jeder Runde vom Crawler besucht werden müssen?
Das ist das Default-Verhalten. Wenn man einen bestimmten Dokumentenkreis beobachten will ("watchdog"), dann empfiehlt es sich, eine getrennte Collection dafür anzulegen und dort die URLs entsprechend zu begrenzen. Dann werden nur noch relevante "Neuheiten" geliefert.

Von welchen Start-URLs startet der Crawler im ersten sowie in allen nachfolgenden Fetch rounds?
Es gibt eine Liste, in welcher die URLs stehen, die der Crawler das letzte mal besucht hat. Ausserdem werden bei jedem Starten die Start-URLs explizit in diese Queue ganz vorne eingestellt, so dass die Änderungen auch wirksam verfolgt werden können.



Copyright © 2001-2012 Insuma GmbH. All rights reserved. Insuma™ and the Insuma logo are registered trademarks of Insuma GmbH. All other logos and trademarks contained in this site are property of their respective owners. Imprint