Unterhalb welcher URLs bzw. Portalen sucht InsumaScout nach Dokumenten?
InsumaScout sucht, ausgehend von den Start-URLs, die Sie im Control-Center vorgeben, nach
weiteren relevanten Seiten frei im Web. Dabei werden Links von allen Start-URLs
aus weiter verfolgt und Seiten als relevant markiert, wenn sie einem vorgebenen
Relevanzmuster entsprechen. Dabei bleibt das Feld "Allowed URLs" leer!
Falls Sie relevante Dokumente nur von definierten Domains geliefert haben
wollen, so müssen Sie diese (in Form von regulären Ausdrücken) in die Form
"Allowed URLs" eingeben!
Was bezeichnet eine Topic Collection?
Eine Topic Collection bezeichnet ein Themengebiet, welches durch
die relevanten Textausschnitte ("Core-Text") des Control-Centers inhaltlich
eingegrenzt wird.
Eine Topic Collection kann in beliebig viele (Unter-) Kategorien
eingeteilt werden. Dies geschieht im Control-Center unter dem Menüpunkt
"Indexer options > URL to category mapping" bzw.
"Indexer options > META to category mapping".
Wodurch genau wird die Suche inhaltlich eingegrenzt?
Die Suche wird durch die im Control-Center Abschnitt "Crawler options > Relevant text samples" eingegebenen Textausschnitte inhaltlich eingegrenzt.
Als Textbeispiele dienen dabei Absätze aus Dokumenten sowie evtl. weitere
Stichwörter,
welche das Themengebiet sehr gut umschreiben können. Textbeispiele oder
Stichwörter, die aus verschiedenen Dokumenten stammen, werden dabei durch
Leerzeilen getrennt.
Kann InsumaScout Dokumente in verschiedenen Sprachen suchen?
Ja, man kann Dokumente in jeder beliebigen Sprache suchen und sammeln
lassen. Wichtig ist dabei, dass jede InsumaScout-Collection in einer unterschiedlichen
Sprache sucht. Wenn Sie z.B. relevante Dokumente in 3 verschiedenen
Sprachen suchen wollen, empfiehlt es sich, 3 InsumaScout-Collections anzulegen,
jede für eine andere Sprache.
Diese Eigenheit liegt daran, dass InsumaScout Dokumente in verschiedenen
Sprachen als wenig verwandt einstuft, da die lexikalischen
Inhalte sich statistisch stark unterscheiden. Der Algorithmus wird
dann sozusagen "gezwungen" zwei "Themen" gleichzeitlich zu
behandeln, die gesamte Relevanz kann dadurch beeinträchtigt
werden.
Was geschieht nach einer Dokumenten-Bewertung?
In der Trainingsphase von InsumaScout werden Ihnen i.d.R. im wöchentlichen
Rhythmus Dokumente präsentiert, die unser Crawler im Web gefunden und als
relevant erachtet hat. Sie haben nun die Möglichkeit, dies zu überprüfen.
Gehen Sie hierzu bitte in den Control-Center Abschnitt "Crawler options > Fetch rounds".
Sie können jedes präsentierte Dokument mit einer Bewertung zwischen "-2"
("vollkommen irrelevant") bis "2" ("sehr relevant") bewerten.
Nachdem Sie die Dokumenten-Bewertung abgeschlossen haben, wird der
Crawler-Filter entsprechend abgeändert. Das Cluster-Verfahren, welches die
eingehenden Dokumente auf inhaltliche Relevanz überprüft, berücksichtigt
die Änderungen des Crawler-Filters und findet im nächsten Crawler-Fetch noch
relevantere Dokumente. Man spricht hierbei auch von einem "lernfähigen System",
das durch Ihre Eingaben lernt.
Erst nach einer Stabilisierung der Crawler-Fetch Ergebnisse, d.h. nachdem der
InsumaScout Crawler nach einigen Wochen des Trainings zufrieden
stellende Ergebisse liefert, hat der Collection-Administrator die Möglichkeit,
auf den Routinebetrieb umzuschalten. Dies geschieht über die File
Freshness im Abschnitt Crawler options > Freshness detection.
Unter welchen Menüpunkten muss ich Veränderungen vornehmen?
Unter folgenden Menüpunkten des Control-Centers müssen Sie Eingaben oder
Änderungen vornehmen:
- Crawler options > URL settings: Eingabe/Änderung der Start URLs,
Eingrenzung der Suche (Domains, Unterbereiche), etc.
- Crawler options > Scout configuration: Eingabe/Änderung der Relevanz-Grenze, Anzahl der Dokumente pro Crawler-Fetch, Anzahl der Dokumente pro Host,
maximale Filter-Größe.
- Crawler options > Relevant text samples: Eingabe/Änderung der
relevanten Textausschnitte
- Crawler options > Freshness detection: Umschalten auf den Routinebetrieb
(tägliche Crawler-Fetches)
- Crawler options > Accepted MIME-types: Eingabe/Änderung der zu
liefernden Dokumentenformate (HTML, PDF, DOC, RTF, etc.)
- Crawler options > Deduplication: Eingabe/Änderung der Deduplizierungs-Paramter.
- Indexer options > Field weights: Eingabe/Änderung der Felder-Gewichtung. Wichtig, um Treffer im Titel höher zu bewerten als Treffer in der "body"-Umgebung eines Dokuments.
- Indexer options > URL to category mapping: Eingabe/Änderung von (Unter-)
Kategorien zum Themengebiet.
Wie viele Start-URLs muss ich eingeben?
Sie können beliebig viele Start-URLs eingeben.
Unterstützt InsumaScout auch JSP?
Ja, InsumaScout unterstützt auch jsp-Seiten (index.jsp, etc.).
Was genau muss ich in Allowed URLs und Dissallowed URLs eingeben?
Bitte geben Sie (in Form regulärer Ausdrücke) in Allowed URLs URLs ein,
wenn Sie die Lieferung von relevanten Dokumenten nur von gewissen Domains bzw.
Unterbereichen von diesen wünschen. Lassen Sie die Form Allowed URLs
leer, wenn Sie dem Crawler erlauben, im gesamten Web nach relevanten
Informationen zu suchen.
Geben Sie Dissallowed URLs ein, wenn Sie nur einzelne Domains oder Unterbereiche ausschließen wollen. Dies ist dann sinnvoll, wenn der Crawler einerseits
im gesamten Web suchen soll und Sie andererseits feststellen, dass gewisse
Domains immer wieder irrelevante Dokumente liefern.
Es kann sinnvoll sein, die Suche in der Trainingsphase auf die Domains der
Start URLs einzuschränken, da zunächst viele irrelevante Dokumente
geliefert werden, wenn der Scout-Filter noch nicht vollständig trainiert ist.
Die Links der Start URLs enthalten jedoch viele relevante Dokumente, die sich
sehr gut zum Training des Filters eignen.
Was muss ich in den Relevant text samples eingeben?
In den Relevant text samples geben Sie den Core-Text ein, also Abschnitte
aus Ihren Dokumenten, welche sehr relevante Inhalte besitzen. Dabei sollen
die Textbeispiele von unterschiedlichen Dokumenten durch eine Leerzeile voneinander
getrennt werden. Jeder solcher Abschnitt wird als relevant erachtet, unabhängig
von allen anderen Abschnitten.
Zusätzlich können Sie Schlüsselwörter (Keywords) eingeben, die das Themengebiet
sehr gut umreißen können.
Wie ist der Text in den Relevant text samples mit den Kategorien in der URL to category mapping verwandt?
Der Core-Text in Crawler options > Relevant text samples umreißt
inhaltlich das Themengebiet (Topic Collection), wohingegen die Kategorien
in Indexer options > URL to category mapping bzw.
Indexer options > META to category mapping die Struktur bzw.
die Klassifikation des Themengebietes widerspiegelt. Die Klassifikation
unterteilt das Themengebiet in verschiedene (Unter-)Kategorien.
Wie funktioniert die (automatische) Klassifikation (URL to category mapping)?
Dokumente, die durch den InsumaScout Crawler geliefert werden, werden
automatisch den vorgegebenen Kategorien aus Indexer options > URL to category mapping
zugeteilt, wenn ihre URL den Domain- und Pfad-Angaben entsprechen.
Hierzu zwei Beispiele:
- Das Dokument
www.meine-seite.de/kategorie/unterkategorie/blatt.html wird automatisch
der Kategorie "Kategorie/Unterkategorie" zugeordnet, wenn folgender
Eintrag vorhanden ist:
www.meine-seite.de/kategorie/unterkategorie/ Kategorie/Unterkategorie
- Das Dokument
www.meine-seite.de/kategorie/unterkategorie/blatt.html wird automatisch
der Kategorie "Kategorie" zugeordnet, wenn folgender
Eintrag vorhanden ist:
www.meine-seite.de/kategorie Kategorie
Das gleiche passiert mit Dokumenten, welche entsprechende Meta-Categorys
definiert haben.
Alle übrigen Dokumente werden durch den InsumaScout Routing-Algorithmus
der/den Kategorie/n zugeteilt, welche inhaltlich am nächsten liegen. Der
Routing-Algorithmus benutzt dabei statistische Verfahren und kann daher per se
nur vage Entscheidungen treffen.
Sie haben beim Browsen durch die Fetch-Rounds sowie bei der Suche über die
Gesamt-Collection die Möglichkeit, insbesondere die durch den
Routing-Algorithmus falsch zugeteilten Dokumente der richtigen Kategorie
zuzuteilen.
Wie funktionieren Meta-Kategorien?
Meta-Kategorien, deren Abbildung im Control-Center Abschnitt
Indexer options > META to category mapping
definiert wird, verhalten sich genauso wie in der Abbildung "URL nach Kategorie".
Sobald ein HTML-Dokument in seiner Header-Umgebung eine Meta-Kategorie in Form
von <META NAME=CATEGORY CONTENT="value1"> my_category_name_1
definiert, wird diese Definition gleich in InsumaScout übernommen.
Die Übernahme von Kategorien aus den Meta-Definitionen ist besonders praktisch,
wenn Sie Ihre HTML-Seiten über ein Autorensystem generieren.
Können auch PDF-Dokumente indiziert werden?
PDF-Dokumente werden bei der Kategorisierung (als Referenzdokumente) unter
Indexer options > URL to category mapping berücksichtigt.
Der InsumaScout Crawler liefert jedoch standardmäßig keine
PDF-Dokumente aus dem Web.
Muss ich die Referenzdokumente der Kategorisierung auf meinem Webserver speichern?
Alle Referenzdokumente der Kategorisierung, die Sie unter
Indexer options > URL to category mapping eintragen, müssen durch
unseren Crawler erreichbar sein. Sie müssen auf Ihrem oder einem Webserver
eines Drittanbieters liegen.
Die automatische Kategorisierung sieht seltsam aus. Was muss ich tun?
Die automatische Kategorisierung arbeitet auf Basis von Beispiel-Dokumenten,
die Sie in die Indexer options > URL to category mapping eingetragen
haben sowie auf Grund der Dokumente, die Sie in den Crawler-Fetches Kategorien
zugeteilt haben.
Gewöhnlich ist die Qualität der Kategoriesierung am Anfang Ihrer
Scout-Benutzung noch unzufrieden stellend, da nur zu wenige (oder keine)
Beispiel-Dokumente zugewiesen wurden. Die Qualität wird durch weitere
Zuteilungen durch Ihre Themen-Experten verbessert. Um die Qualität zu
verbessern gehen Sie wir folgt vor:
- Schauen Sie sich die Crawler-Fetches an und teilen Sie Dokumente erneut
den richtigen Kategorien zu.
Im nächsten Fetch wird der Kategorisierungs-Algorithmus diese Dokumente als
Beispiele für weitere Kategorisierungen wählen. Je mehr Dokumente durch
Experten bestätigt und re-klassifiziert wurden, desto eher kann die
automatische Klassifikation verbessert werden.
Was bedeuten die Begriffe 'queued for fetching', 'already
fetched', 'redirect' und 'disallowed' des Control-Center Abschnittes
'Statistics > Crawler statistics'?
- 'queued for fetching': die Seite wurde in eine Liste eingetragen, welche
Webseiten enthält, die nach und nach abgearbeitet, d.h. indiziert werden.
- 'already fetched': die Seite wurde vom Insuma-Crawler bereits geladen und
indiziert.
- 'fetching failed': die Seite konnte nicht geladen werden. Bei Klick auf
Details erfahren Sie i.d.R. den Fehlercode und können daher analysieren,
warum die Seite nicht geladen werden konnte (z.B. 'Error 404 -
Document not found').
- 'duplicates': die Seite wurde als Duplikat einer anderen bereits indizierten
Seite erkannt und daher von einer weiteren Indizierung ausgeschlossen. Die
Erkennung von Duplikaten basiert auf den Parametern, die Sie im Abschnitt
'Crawler options > Deduplication' einstellen können (gilt nur für unser Produkt
InsumaFocus).
- 'redirect': die Seite hat keinen eigentlichen Inhalt, sondern verweist
durch einen sogenannten 'redirect' auf eine andere Seite.
- 'disallowed': die Seite darf nicht indiziert werden. Die Verweigerung zur
Indizierung der Seite stammt entweder von der robots.txt-Datei oder von der
Seite selbst und wird bestimmt durch den Eigentümer der Seite. Der
Insuma-Crawler berücksichtigt selbstverständlich diese Einschränkungen.
Was bezeichnet die 'Freshness detelction'?
Gefundenen und als relevant gespeicherten Dokumente werden in regelmäßigen Abständen, gemäß der Einstellungen unter der Freshness detection, wieder besucht.
Gibt es eine InsumaScout-Demo? Welche Beschränkungen hat diese?
Ja, wir bieten zu Testzwecken eine InsumaScout-Demo an. Die
InsumaScout-Demo ist besschränkt auf 1 Topic-Collection
(Themenbereich) und hat generell eine Laufzeit von 4 Wochen (4 Fetch-rounds).
Eine erweiterte Demo kann von uns angefordert werden. Wir erstellen gerne ein
auf Sie zugeschnittenes Angebot für die Test- und Routinephase.
Bitte kontieren Sie hierzu auch unsere
InsumaScout-Demo Seite.