Insuma GmbH - Intelligente Suchmaschinen
Insuma Logo
Englische Version

Ihr Projektangebot:

Ihre Suchmaschine:




Frequently Asked Questions zu InsumaScout

Die "Frequently Asked Questions" Liste ist eine Auflistung der häufigst auftretenden Probleme. In vielen Fällen kann Sie Ihnen helfen, ein Problem zu lösen.

Unterhalb welcher URLs bzw. Portalen sucht InsumaScout nach Dokumenten?
InsumaScout sucht, ausgehend von den Start-URLs, die Sie im Control-Center vorgeben, nach weiteren relevanten Seiten frei im Web. Dabei werden Links von allen Start-URLs aus weiter verfolgt und Seiten als relevant markiert, wenn sie einem vorgebenen Relevanzmuster entsprechen. Dabei bleibt das Feld "Allowed URLs" leer!
Falls Sie relevante Dokumente nur von definierten Domains geliefert haben wollen, so müssen Sie diese (in Form von regulären Ausdrücken) in die Form "Allowed URLs" eingeben!

Was bezeichnet eine Topic Collection?
Eine Topic Collection bezeichnet ein Themengebiet, welches durch die relevanten Textausschnitte ("Core-Text") des Control-Centers inhaltlich eingegrenzt wird.
Eine Topic Collection kann in beliebig viele (Unter-) Kategorien eingeteilt werden. Dies geschieht im Control-Center unter dem Menüpunkt "Indexer options > URL to category mapping" bzw. "Indexer options > META to category mapping".

Wodurch genau wird die Suche inhaltlich eingegrenzt?
Die Suche wird durch die im Control-Center Abschnitt "Crawler options > Relevant text samples" eingegebenen Textausschnitte inhaltlich eingegrenzt. Als Textbeispiele dienen dabei Absätze aus Dokumenten sowie evtl. weitere Stichwörter, welche das Themengebiet sehr gut umschreiben können. Textbeispiele oder Stichwörter, die aus verschiedenen Dokumenten stammen, werden dabei durch Leerzeilen getrennt.

Kann InsumaScout Dokumente in verschiedenen Sprachen suchen?
Ja, man kann Dokumente in jeder beliebigen Sprache suchen und sammeln lassen. Wichtig ist dabei, dass jede InsumaScout-Collection in einer unterschiedlichen Sprache sucht. Wenn Sie z.B. relevante Dokumente in 3 verschiedenen Sprachen suchen wollen, empfiehlt es sich, 3 InsumaScout-Collections anzulegen, jede für eine andere Sprache.

Diese Eigenheit liegt daran, dass InsumaScout Dokumente in verschiedenen Sprachen als wenig verwandt einstuft, da die lexikalischen Inhalte sich statistisch stark unterscheiden. Der Algorithmus wird dann sozusagen "gezwungen" zwei "Themen" gleichzeitlich zu behandeln, die gesamte Relevanz kann dadurch beeinträchtigt werden.

Was geschieht nach einer Dokumenten-Bewertung?
In der Trainingsphase von InsumaScout werden Ihnen i.d.R. im wöchentlichen Rhythmus Dokumente präsentiert, die unser Crawler im Web gefunden und als relevant erachtet hat. Sie haben nun die Möglichkeit, dies zu überprüfen. Gehen Sie hierzu bitte in den Control-Center Abschnitt "Crawler options > Fetch rounds". Sie können jedes präsentierte Dokument mit einer Bewertung zwischen "-2" ("vollkommen irrelevant") bis "2" ("sehr relevant") bewerten.
Nachdem Sie die Dokumenten-Bewertung abgeschlossen haben, wird der Crawler-Filter entsprechend abgeändert. Das Cluster-Verfahren, welches die eingehenden Dokumente auf inhaltliche Relevanz überprüft, berücksichtigt die Änderungen des Crawler-Filters und findet im nächsten Crawler-Fetch noch relevantere Dokumente. Man spricht hierbei auch von einem "lernfähigen System", das durch Ihre Eingaben lernt.
Erst nach einer Stabilisierung der Crawler-Fetch Ergebnisse, d.h. nachdem der InsumaScout Crawler nach einigen Wochen des Trainings zufrieden stellende Ergebisse liefert, hat der Collection-Administrator die Möglichkeit, auf den Routinebetrieb umzuschalten. Dies geschieht über die File Freshness im Abschnitt Crawler options > Freshness detection.

Unter welchen Menüpunkten muss ich Veränderungen vornehmen?
Unter folgenden Menüpunkten des Control-Centers müssen Sie Eingaben oder Änderungen vornehmen:

  • Crawler options > URL settings: Eingabe/Änderung der Start URLs, Eingrenzung der Suche (Domains, Unterbereiche), etc.
  • Crawler options > Scout configuration: Eingabe/Änderung der Relevanz-Grenze, Anzahl der Dokumente pro Crawler-Fetch, Anzahl der Dokumente pro Host, maximale Filter-Größe.
  • Crawler options > Relevant text samples: Eingabe/Änderung der relevanten Textausschnitte
  • Crawler options > Freshness detection: Umschalten auf den Routinebetrieb (tägliche Crawler-Fetches)
  • Crawler options > Accepted MIME-types: Eingabe/Änderung der zu liefernden Dokumentenformate (HTML, PDF, DOC, RTF, etc.)
  • Crawler options > Deduplication: Eingabe/Änderung der Deduplizierungs-Paramter.
  • Indexer options > Field weights: Eingabe/Änderung der Felder-Gewichtung. Wichtig, um Treffer im Titel höher zu bewerten als Treffer in der "body"-Umgebung eines Dokuments.
  • Indexer options > URL to category mapping: Eingabe/Änderung von (Unter-) Kategorien zum Themengebiet.

Wie viele Start-URLs muss ich eingeben?
Sie können beliebig viele Start-URLs eingeben.

Unterstützt InsumaScout auch JSP?
Ja, InsumaScout unterstützt auch jsp-Seiten (index.jsp, etc.).

Was genau muss ich in Allowed URLs und Dissallowed URLs eingeben?
Bitte geben Sie (in Form regulärer Ausdrücke) in Allowed URLs URLs ein, wenn Sie die Lieferung von relevanten Dokumenten nur von gewissen Domains bzw. Unterbereichen von diesen wünschen. Lassen Sie die Form Allowed URLs leer, wenn Sie dem Crawler erlauben, im gesamten Web nach relevanten Informationen zu suchen.
Geben Sie Dissallowed URLs ein, wenn Sie nur einzelne Domains oder Unterbereiche ausschließen wollen. Dies ist dann sinnvoll, wenn der Crawler einerseits im gesamten Web suchen soll und Sie andererseits feststellen, dass gewisse Domains immer wieder irrelevante Dokumente liefern.

Es kann sinnvoll sein, die Suche in der Trainingsphase auf die Domains der Start URLs einzuschränken, da zunächst viele irrelevante Dokumente geliefert werden, wenn der Scout-Filter noch nicht vollständig trainiert ist. Die Links der Start URLs enthalten jedoch viele relevante Dokumente, die sich sehr gut zum Training des Filters eignen.

Was muss ich in den Relevant text samples eingeben?
In den Relevant text samples geben Sie den Core-Text ein, also Abschnitte aus Ihren Dokumenten, welche sehr relevante Inhalte besitzen. Dabei sollen die Textbeispiele von unterschiedlichen Dokumenten durch eine Leerzeile voneinander getrennt werden. Jeder solcher Abschnitt wird als relevant erachtet, unabhängig von allen anderen Abschnitten.
Zusätzlich können Sie Schlüsselwörter (Keywords) eingeben, die das Themengebiet sehr gut umreißen können.

Wie ist der Text in den Relevant text samples mit den Kategorien in der URL to category mapping verwandt?
Der Core-Text in Crawler options > Relevant text samples umreißt inhaltlich das Themengebiet (Topic Collection), wohingegen die Kategorien in Indexer options > URL to category mapping bzw. Indexer options > META to category mapping die Struktur bzw. die Klassifikation des Themengebietes widerspiegelt. Die Klassifikation unterteilt das Themengebiet in verschiedene (Unter-)Kategorien.

Wie funktioniert die (automatische) Klassifikation (URL to category mapping)?
Dokumente, die durch den InsumaScout Crawler geliefert werden, werden automatisch den vorgegebenen Kategorien aus Indexer options > URL to category mapping zugeteilt, wenn ihre URL den Domain- und Pfad-Angaben entsprechen.
Hierzu zwei Beispiele:

  • Das Dokument www.meine-seite.de/kategorie/unterkategorie/blatt.html wird automatisch der Kategorie "Kategorie/Unterkategorie" zugeordnet, wenn folgender Eintrag vorhanden ist:
    www.meine-seite.de/kategorie/unterkategorie/    Kategorie/Unterkategorie
  • Das Dokument www.meine-seite.de/kategorie/unterkategorie/blatt.html wird automatisch der Kategorie "Kategorie" zugeordnet, wenn folgender Eintrag vorhanden ist:
    www.meine-seite.de/kategorie    Kategorie
Das gleiche passiert mit Dokumenten, welche entsprechende Meta-Categorys definiert haben.
Alle übrigen Dokumente werden durch den InsumaScout Routing-Algorithmus der/den Kategorie/n zugeteilt, welche inhaltlich am nächsten liegen. Der Routing-Algorithmus benutzt dabei statistische Verfahren und kann daher per se nur vage Entscheidungen treffen.
Sie haben beim Browsen durch die Fetch-Rounds sowie bei der Suche über die Gesamt-Collection die Möglichkeit, insbesondere die durch den Routing-Algorithmus falsch zugeteilten Dokumente der richtigen Kategorie zuzuteilen.

Wie funktionieren Meta-Kategorien?
Meta-Kategorien, deren Abbildung im Control-Center Abschnitt Indexer options > META to category mapping definiert wird, verhalten sich genauso wie in der Abbildung "URL nach Kategorie". Sobald ein HTML-Dokument in seiner Header-Umgebung eine Meta-Kategorie in Form von <META NAME=CATEGORY CONTENT="value1"> my_category_name_1 definiert, wird diese Definition gleich in InsumaScout übernommen. Die Übernahme von Kategorien aus den Meta-Definitionen ist besonders praktisch, wenn Sie Ihre HTML-Seiten über ein Autorensystem generieren.

Können auch PDF-Dokumente indiziert werden?
PDF-Dokumente werden bei der Kategorisierung (als Referenzdokumente) unter Indexer options > URL to category mapping berücksichtigt. Der InsumaScout Crawler liefert jedoch standardmäßig keine PDF-Dokumente aus dem Web.

Muss ich die Referenzdokumente der Kategorisierung auf meinem Webserver speichern?
Alle Referenzdokumente der Kategorisierung, die Sie unter Indexer options > URL to category mapping eintragen, müssen durch unseren Crawler erreichbar sein. Sie müssen auf Ihrem oder einem Webserver eines Drittanbieters liegen.

Die automatische Kategorisierung sieht seltsam aus. Was muss ich tun?
Die automatische Kategorisierung arbeitet auf Basis von Beispiel-Dokumenten, die Sie in die Indexer options > URL to category mapping eingetragen haben sowie auf Grund der Dokumente, die Sie in den Crawler-Fetches Kategorien zugeteilt haben.
Gewöhnlich ist die Qualität der Kategoriesierung am Anfang Ihrer Scout-Benutzung noch unzufrieden stellend, da nur zu wenige (oder keine) Beispiel-Dokumente zugewiesen wurden. Die Qualität wird durch weitere Zuteilungen durch Ihre Themen-Experten verbessert. Um die Qualität zu verbessern gehen Sie wir folgt vor:

  • Schauen Sie sich die Crawler-Fetches an und teilen Sie Dokumente erneut den richtigen Kategorien zu.
Im nächsten Fetch wird der Kategorisierungs-Algorithmus diese Dokumente als Beispiele für weitere Kategorisierungen wählen. Je mehr Dokumente durch Experten bestätigt und re-klassifiziert wurden, desto eher kann die automatische Klassifikation verbessert werden.

Was bedeuten die Begriffe 'queued for fetching', 'already fetched', 'redirect' und 'disallowed' des Control-Center Abschnittes 'Statistics > Crawler statistics'?

  • 'queued for fetching': die Seite wurde in eine Liste eingetragen, welche Webseiten enthält, die nach und nach abgearbeitet, d.h. indiziert werden.
  • 'already fetched': die Seite wurde vom Insuma-Crawler bereits geladen und indiziert.
  • 'fetching failed': die Seite konnte nicht geladen werden. Bei Klick auf Details erfahren Sie i.d.R. den Fehlercode und können daher analysieren, warum die Seite nicht geladen werden konnte (z.B. 'Error 404 - Document not found').
  • 'duplicates': die Seite wurde als Duplikat einer anderen bereits indizierten Seite erkannt und daher von einer weiteren Indizierung ausgeschlossen. Die Erkennung von Duplikaten basiert auf den Parametern, die Sie im Abschnitt 'Crawler options > Deduplication' einstellen können (gilt nur für unser Produkt InsumaFocus).
  • 'redirect': die Seite hat keinen eigentlichen Inhalt, sondern verweist durch einen sogenannten 'redirect' auf eine andere Seite.
  • 'disallowed': die Seite darf nicht indiziert werden. Die Verweigerung zur Indizierung der Seite stammt entweder von der robots.txt-Datei oder von der Seite selbst und wird bestimmt durch den Eigentümer der Seite. Der Insuma-Crawler berücksichtigt selbstverständlich diese Einschränkungen.

Was bezeichnet die 'Freshness detelction'?
Gefundenen und als relevant gespeicherten Dokumente werden in regelmäßigen Abständen, gemäß der Einstellungen unter der Freshness detection, wieder besucht.

Gibt es eine InsumaScout-Demo? Welche Beschränkungen hat diese?
Ja, wir bieten zu Testzwecken eine InsumaScout-Demo an. Die InsumaScout-Demo ist besschränkt auf 1 Topic-Collection (Themenbereich) und hat generell eine Laufzeit von 4 Wochen (4 Fetch-rounds). Eine erweiterte Demo kann von uns angefordert werden. Wir erstellen gerne ein auf Sie zugeschnittenes Angebot für die Test- und Routinephase. Bitte kontieren Sie hierzu auch unsere InsumaScout-Demo Seite.



Copyright © 2001-2009 Insuma GmbH. Alle Rechte vorbehalten. Insuma™ und das Insuma-Logo sind eingetragene Warenzeichen der Insuma GmbH. Alle weiteren Logos und Warenzeichen auf dieser Website sind im Besitz der entsprechenden Eigner. Impressum