


|
Frequently Asked Questions zu InsumaScout - Rate Tutorial
Die "Frequently Asked Questions" Liste ist eine Auflistung der häufigst auftretenden Probleme. In vielen Fällen kann Sie Ihnen helfen, ein Problem zu lösen.
Die folgenden Fragen sollen erklären, wie das Rating der Dokumente am einfachsten erfolgen soll.
- Wie erklärt sich der allgemeine InsumaScout-Workflow bestehend aus Dokumenten-Fetch, Dokumenten-Bewertung und Kategorisierung der Dokumente?
- Was sind die Alternativen zu wöchentlichen Bewertungen? Können Dokumente in einem Massive Run komplett geliefert werden? Können Dokumente täglich geliefert werden?
- Gibt es allgemeine Richtlinien für das Trainieren des Collection-Filters?
- Wie beeinflusst die Kategorisierung den Crawler-Filter? Wie beeinflusst sie die Re-Kategorisierung?
- Wie soll ich mit dem IR-Problem "Precision vs. Recall" für mein spezielles Problem der Informationsbeschaffung umgehen?
- Können die Bewertungen auch nachträglich vorgenommen werden, d.h. nachdem die Dokumente bereits in die Collection aufgenommen wurden?
- Gibt es eine Möglichkeit, Dokumente explizit auszuschließen, wenn zuvor festgelegte Bedingungen erfüllt sind, z.B. wenn gewisse Terme im Dokument vorkommen?
- Wie lange dauert voraussichtlich der Vorgang der Dokumenten-Bewertung (Stabilisierung des Crawler-Filters)? Kann dieser Zeitraum verkürzt werden und wie?
- Wie viele Dokumente müssen der Kategorisierung vorgegeben
werden, damit diese ordentlich funktioniert?
- Können auch Dokumente aus Bibliotheksarchiven und
Datenbanken geliefert werden?
- Ich habe einen relevanten Text in 'Crawler options >
Relevant text' eingegeben und beim ersten Fetch round schlechte Ergebnisse erhalten. Warum muss der Text in separate Abschnitte untergliedert werden?
- Werden Seiten, welche der Crawler bereits besucht hatte, erneut besucht?
- Ist es möglich, URLs einzugeben, die zwingend in jeder Runde vom Crawler besucht werden müssen?
- Von welchen Start-URLs startet der Crawler im ersten sowie in allen nachfolgenden Fetch rounds?
Wie erklärt sich der allgemeine InsumaScout-Workflow
bestehend aus Dokumenten-Fetch, Dokumenten-Bewertung und Kategorisierung der
Dokumente?
- Im ersten Schritt müssen in den Abschnitten Crawler options >
URL settings: starting URLs, allowed URLs und disallowed URLs
eingetragen werden.
Diese legen fest, von welchen Domains aus der InsumaScout-Crawler
starten soll, welche Domains nicht weiter verfolgt werden dürfen oder ob gar
der Crawler nur auf den Start URLs operieren soll.
NB: Es kann durchaus sinnvoll
sein, die ersten Fetches und Dokumentenbewertungen nur auf Seiten von solchen
Domains anzuwenden, von denen angenommen werden kann, dass sie relevante
Ergebnisse liefern.
- Zudem müssen unter Crawler options > Relevant samples:
relevant URLs und relevant text eingegeben werden. Diese
initialisieren den Crawler-Filter für die Topic-Collection (den
Collection-Filter). Die relevanten Textausschnitte
können also entweder
direkt eingegeben werden oder stammen aus externen Dokumenten-Quellen, deren
URLs bekannt sind.
- Unter Indexer options > URL to category mapping werden
Beispiel-Dokumente Kategorien zugeteilt. Diese definieren die spätere
Zuteilung noch unannotierter Dokumente zu den Kategorien
(Routing-Verfahren). Bitte beachten
Sie, dass die Dokumente dieses Abschnittes nicht zum Training des
Collection-Filters benutzt werden. Sollen diese Dokumente auch zum Training des
Filters benutzt werden, so müssen Sie die URLs zudem in das Feld relevant
URLs eintragen!
- Sie bekommen nun i.d.R. jede Woche einmal Dokumente geliefert, die der
Collection-Filter als relevant eingestuft hat, d.h. die den Collection-Filter
passiert haben. Diese Dokumente sollen im nächsten Schritt durch Ihre/n
Themen-Experten bewertet werden. Dabei beeinflusst jede Dokumenten-Bewertung
(sogenannte "Rates" den Collection-Filter und damit den Crawl-Vorgang
selbst.
Die Bewertung aller Dokumente liefert an den Collection-Filter einen
sogenannten
Fingerabdruck (Fingerprint). Dieser Fingerabdruck beruht auf
Termhäufigkeiten: Kommen Terme häufig in solchen Dokumenten vor, die gut
(+1) oder sehr gut (+2) bewertet wurden, so bekommen diese Terme
ein hohes Gewicht im Fingerabdruck des Collection-Filters. Der Collection-Filter
wird entsprechend abgeändert oder ergänzt. Der nächste
Collection-Fetch orientiert sich am neuen Collection-Filter und liefert nun
Dokumente, die mit den ursprünglichen
Dokumenten des Core Textes sowie mit den neu bewerteten Dokumenten
verwandt sind. Die Verwandtschaft wird durch die statistischen Ähnlichkeit der
Fingerabdrucks-Vektoren gemessen.
- Die Dokumenten-Kategorisierung erfolgt vollkommen unabhängig vom Training
des Collection-Filters. Sie wird in zwei Teilen aufgespalten:
- die manuelle Zuteilung von Dokumenten zu Kategorien und
- die automatische Zuteilung von noch unannotierten (also noch nicht manuell
zugeteilten) Dokumenten zu den Kategorien durch das Routing-Verfahren
Jede dieser Kategorisierungsart ist nicht exklusiv, d.h. Dokumente werden einer
oder mehreren besten Kategorien zugeteilt. Dabei bleibt die manuelle
Kategorisierung solange bestehen, bis sie manuell verändert wird.
Die automatische Kategorisierung wird in jedem Crawler-Lauf
(Crawler-Fetch) angepasst, d.h. sie bleibt nicht bestehen! Dabei
dienen die manuell zugeteilten
Dokumente als Muster (Kategorien-Fingerabdruck) für die Zuteilung der
noch unannotierten Dokumente.
Was sind die Alternativen zu wöchentlichen Bewertungen? Können
Dokumente in einem Massive Run komplett geliefert werden? Können
Dokumente täglich geliefert werden?
Dokumente können selbstverständlich auch durch einen einzigen Crawler-Lauf
geliefert werden. Voraussetzung ist, dass der Collection-Filter ordentlich
trainiert wurde. Dies kann man daran sehen, dass pro Fetch mindestens 30 %
relevante Dokumente geliefert werden. Zu diesem Zeitpunkt, der i.d.R. nach
ca. 4-6 Wochen (oder Fetch-Rounds) erreicht wird, kann auch auf sogenannte
Daily Fetches umgeschaltet werden. Dazu muss im Control-Center unter dem
Abschnitt Crawler options > Freshness detection die File
freshness auf 1 gesetzt werden (für tägliche Aktualisierung).
Sowohl der Massive Run als auch die tägliche Aktualisierung werden
die bestehende Genauigkeit nicht mehr verbessern können, da für diese Option
keine weiteren Dokumenten-Bewertungen vorgsehen sind.
Gibt es allgemeine Richtlinien für das Trainieren des Collection-Filters?
Das Training des Collection-Filters liegt zunächst vollkommen in Ihrem Ermessen.
Sie müssen selbst eintscheiden, welche Dokumente zur Topic-Collection passen,
also relevant, und welche irrelevant sind. Diese Beurteilung nehmen Sie selbst
oder Ihr Themen-Experte vor. Sie bzw. Ihre Experten sollten jedoch beachten,
dass der Collection-Filter die Dokumenten-Relevanz anhand von Term-Frequenzen
misst. Er kann insbesondere Dokumente nicht semantisch analysieren.
Ein Dokument wird also auch dann als relevant erkannt, wenn es das vorgegebene
Thema diskreditiert.
Eine semantische Analyse geschieht indirekt, indem Sie eingehende Dokumente der
Fetches entsprechend bewerten. Die statistische Analyse im Hintergrund wird auch
in folgenden Fetches unerwünschte Dokumente durchlassen. Zugleich wird sich
deren Anzahl - bei entsprechender Dokumenten-Bewertung - vermindern.
Der Crawler-Filter braucht mindestens 50 mit mindestens +1 bewertete
Dokumente, um verlässliche Entscheidungen über die Relevanz weiterer
eintreffender Dokumente treffen zu können.
Wie beeinflusst die Kategorisierung den Crawler-Filter? Wie beeinflusst sie die Re-Kategorisierung?
Die Dokumenten-Kategorisierung beeinflusst nicht die Collection-Filter.
Die Collection-Filter werden lediglich durch die Angaben in
Crawler options > Relevant samples sowie durch Ihre
Dokumenten-Bewertungen beeinflusst.
Die manuelle Kategorisierung beeinflusst das automatische Zuteilen
von noch nicht kategorisierten Dokumenten. Diese werden der oder den Kategorien
zugeteilt, welche Dokumente besitzen, deren Fingerabdrücke dem Dokument am
ähnlichsten sind. Die manuelle Kategorisierung kann nur manuell verändert
werden, die automatische Kategorisierung wird in jedem Crawler-Lauf (
Crawler-Fetch) verändert.
Wie soll ich mit dem IR-Problem "Precision vs. Recall" für mein
spezielles Problem der Informationsbeschaffung umgehen?
Ein bekanntes Problem des Information-Retrieval ist, dass die Genauigkeit
(oder Relevanz, Precision) der gelieferten Dokumente mit der
Vollständigkeit (oder Recall) konkurriert. Dies bedeutet, dass entweder
viele mehr oder weniger relevante Dokumente geliefert werden können oder aber
nur wenige, daher aber um so relevantere Dokumente.
Sie müssen selbst entscheiden, ob Sie damit einverstanden sind, neben einigen
guten auch viele irrelevante Dokumente geliefert zu bekommen. Dies ist i.d.R.
sinnvoll, wenn Sie rasch Ihr Portal mit Zusatz-Inhalten ausstaffieren wollen.
Oder aber Sie entscheiden sich für die genaue Suche, die nur wenige, dafür
aber umso relevantere Dokumente durchlässt. Dies ist sinnvoll, wenn Sie
bereits viele Dokumente über das Thema besitzen und auf der Suche nach sehr
speziellen Unterthemen sind.
Können die Bewertungen auch nachträglich vorgenommen
werden, d.h. nachdem die Dokumente bereits in die Collection aufgenommen wurden?
Ja, dies ist möglich. Günstigstenfalls sollten jedoch bereits soviele Dokumente
bewertet worden sein (i.d.R. nach 4 Fetch-Rounds), dass gewährleistet werden
kann, dass der Collection-Filter
trainiert ist. Die Bewertung kann erfolgen, nachdem die Dokumente bereits in
die Collection bzw. in Ihr Firmen-Portal aufgenommen werden.
Bei einer solchen Vorgehensweise nehmen Sie bewusst in Kauf, dass neben
relevanten auch viele irrelevante Dokumente geliefert werden und in Ihrem
Portal angezeigt werden. Die Dokumente lassen sich dabei jederzeit mittels der
üblichen Dokumenten-Bewertungen (-2, -1) wieder aus dem Portal entfernen.
Ihr Portalbenutzer wird übrigens mit Hilfe der Portal-Suche kaum solche
irrelevanten Dokumente zu Gesicht bekommen. Diese werden ihm nämlich - ähnlich
wie bei anderen (Internet-)Suchmaschinen auch in den letzten Ausgabeseiten
präsentiert. Diese werden statistisch nur sehr selten besucht.
Gibt es eine Möglichkeit, Dokumente explizit auszuschließen, wenn zuvor festgelegte Bedingungen erfüllt sind, z.B. wenn gewisse Terme im
Dokument vorkommen?
Sie haben ab dem kommenden InsumaScout-Release die Möglichkeit, über
den Control-Center Abschnitt "Crawler options > Train filter" Filterterme
direkt zu manipulieren, d.h. gewöhnliche Filterterme oder solche, die eindeutig
nicht zum Themengebiet der Topic-Collection gehören, in eine sogenannte
Kill-List einzutragen. Diese Filterterme werden im nächsten
Crawler-Fetch nicht mehr zur Beurteilung der einkommenden Dokumente
herangezogen. Eine explizite Ausschließung von Dokumenten auf Grund von
vorgegebenen Termen ist zum gegenwärtigen Stand nicht vorgesehen.
Wie lange dauert voraussichtlich der Vorgang der Dokumenten-Bewertung (Stabilisierung des Crawler-Filters)? Kann dieser Zeitraum verkürzt werden und wie?
Der Vorgang der Dokumenten-Bewertung (Stabilisierung des Crawler-Filters)
dauert i.d.R. und je nach Charakteristik des Themas (eng, weit) und Gewichtung
zwischen Precision (Genauigkeit oder Relevanz der gefunden Dokumente) und
Recall (Vollständigkeit der gefunden Dokumente) zwischen 4 bis 6 Wochen
(Fetch-Rounds). Der Crawler-Filter ist trainiert, wenn mindestens
30 % der Dokumente als relevant (+1, +2) bewertet wurden.
Der Vorgang lässt sich zu jedem Zeitpunkt abbrechen. Ein sogenannter Massive
run versorgt die Collection mit vielen Dokumenten. Diese können, nachdem
sie in die Collection mit aufgenommen wurden, nachträglich bewertet und somit
wieder aus der Collection entfernt werden.
Wie viele Dokumente müssen der Kategorisierung vorgegeben
werden, damit diese ordentlich funktioniert?
Der Collection-Experte muss ca. 20 Dokumente manuell jeder (Sub-)Kategorie
zuweisen, damit das Routing-Verfahren arbeiten kann. Das
Routing-Verfahren teilt noch unannotierte Dokumente den jeweils am besten
passenden (Sub-)Kategorien zu. Dabei arbeitet das Verfahren
nicht exklusiv, d.h. Dokumente können einer oder mehreren am
besten passenden (Sub-)Kategorien zugeordnet werden.
Können auch Dokumente aus Bibliotheksarchiven und
Datenbanken geliefert werden?
Um Dokumente aus Bibliotheksarchiven und (Fach-)Datenbanken (dem sogenannten
"Deep Web") liefern zu können, brauchen wir entsprechende
Datenbank-Zugriffrechte, d.h. Datenbank-Passwörter. Wenn Sie uns diese mit den
entsprechenden URLs liefern, kann auch das Deep-Web integriert werden. Dabei
wird selbstverständlich die Datenbank oder das Archiv nicht vollständig neu
indiziert, sondern es werden mit speziellen Suchanfragen relevante
Antwort-Dokumente gefunden.
Ich habe einen relevanten Text in 'Crawler options >
Relevant text' eingegeben und beim ersten Fetch round schlechte Ergebnisse erhalten. Warum muss der Text in separate Abschnitte untergliedert werden?
Sie haben sicher Ihren relevanten Text in nur einen einzigen Abschnitt
eingetragen. Überprüfen Sie bitte zudem, ob Sie nur Schlüsselwörter oder
tatsächlich Textausschnitte eingegeben haben. Falls Sie alle Schlüsselwörter
in einen Abschnitt "gepackt" haben, nimmt der Crawler-Filter, an dass
alle weiteren zu liefernden Dokumente eine ähnlich hohe Konzentration
an Schlüsselwörter haben müssen und findet logischerweise kein einziges
Dokument, das diesen zu hohen Kriterien genügt. Üblicherweise enthalten
Dokumente ein bis drei Schlüsselwörter aus der Liste.
Wenn Sie lediglich Schlüsselwörter eintragen, so dürfen Sie maximal 3 solcher
Terme pro Abschnitt eintragen mit je einer Leerzeile zwischen den Abschnitten.
Werden Seiten, welche der Crawler bereits besucht hatte, erneut besucht?
Die Seiten, welche der Crawler bereits besucht hat, werden erneut besucht
und erscheinen wieder wenn sie sehr geändert wurden. Bestimmte Firmen
posten z.B. die aktuelle Pressemitteilungen unter der gleichen URL. Das
betrifft auch Seiten, die zu einem früheren Fetch mit -1 oder -2 bewertet
wurden, da die aktuelle Version der Seite ja inzwischen relevant geworden sein
mag.
Ist es möglich, URLs einzugeben, die zwingend in jeder Runde vom Crawler besucht werden müssen?
Das ist das Default-Verhalten. Wenn man einen bestimmten Dokumentenkreis
beobachten will ("watchdog"), dann empfiehlt es sich, eine getrennte
Collection dafür anzulegen und dort die URLs entsprechend zu begrenzen. Dann
werden nur noch relevante "Neuheiten" geliefert.
Von welchen Start-URLs startet der Crawler im ersten sowie in allen nachfolgenden Fetch rounds?
Es gibt eine Liste, in welcher die URLs stehen, die der Crawler das letzte mal
besucht hat. Ausserdem werden bei jedem Starten die Start-URLs
explizit in diese Queue ganz vorne eingestellt, so dass die Änderungen
auch wirksam verfolgt werden können.
|
Copyright © 2001-2012
Insuma GmbH. All rights reserved. Insuma and the
Insuma logo are registered trademarks of Insuma GmbH. All other logos and
trademarks contained in this site are property of their respective owners.
Imprint
|
|