Arbeit mit dem Webinterface zum ParaSol
Simple query
Für eine Abfrage ist folgendes einzutragen (von links nach rechts):
- Sourcelanguage (Quellsprache): Hier kann nur eine Sprache eingestellt werden, zu der dann eine Anfrage formuliert wird.
- Target languages (Zielsprachen): Hier können mehrere Sprachen ausgewählt werden. Die Übersetzungen der Stellen in der Quellsprache in diese Sprachen werden dann ausgegeben.
- Subcorpora: Hier können mehrere Texte (Subkorpora) ausgewählt werden, in denen dann gesucht wird. Achtung! Wählen Sie nur die Texte aus, die auch wirklich in den von Ihnen ausgewählten Sprachen vorliegen (siehe
Liste).
- Query on source language: Hier können Sie die Suchanfrage formulieren. Alle Stellen der Zielsprache, die dieser Anfrage entsprechen, werden ausgegeben. Im einfachsten Falle besteht die Anfrage einfach aus einem gesuchten Wort, Sie können aber auch nach komplexeren Ausdrücken oder nach Lemmata suchen.
- Query on target language: Hier können Sie eine zusätzliche Anfrage formulieren, die sich auf die Zielsprachen bezieht. Wenn Sie eine solche Anfrage eintragen, werden nicht alle in der Quellsprache gefundenen Stellen ausgegeben, sondern nur die, die in allen angezeigten Zielsprachen außerdem noch dieser Anfrage entsprechen.
- Context size (KWIC): Hier ist die Größe des Kontextes in der Quellsprache einzustellen, gerechnet vom gefundenen Wort aus.
Advanced query
- Primary language (Quellsprache): Hier kann nur eine Sprache eingestellt werden, zu der dann eine Anfrage formuliert wird.
- Languages (Zielsprachen): Hier werden zusätzlich zu der Quellsprache Zielsprachen ausgewählt. Die entsprechenden Stellen in diesen Sprachen werden ausgegeben.
- Update form: Nach Auswahl der Sprachen werden nach dem Betätigen dieses Buttons die in Frage kommenden Texte als Liste ausgegeben.
In der Liste können Sie noch genauer auswählen, welche Texte und Sprachen verwendet werden sollen.
- Eingabe der Anfragen: Hier können Sie die Suchanfrage in CQP formulieren. Alle Stellen der (rot markierten) Zielsprache, die dieser Anfrage entsprechen, werden ausgegeben. Im einfachsten Falle besteht die Anfrage einfach aus einem gesuchten Wort in Anführungszeichen, Sie können aber auch nach komplexeren Ausdrücken oder nach Lemmata suchen.
- Die Ausgabe erfolgt nach betätigen von Submit query in einem neuen Fenster.
Anfragesprache
Die Sprachen im Korpus sind unterschiedlich aufbereitet. Man kann
- nach Wortformen suchen:
[word="czerwony"] oder [word="rot"] findet diese Worte in genau dieser Schreibweise, aber nicht `czerwona', `czerwoni' bzw. `rote', `röter'.
- nach Lemmata, d.h., nach Grundformen suchen:
[lemma="czerwony"] oder [lemma="rot"] findet alle zu `czerwony' gehörenden Wortformen: auch `czerwona', `czerwoni', `czerwonych' bzw. `rote', `röter'.
- Im Russischen, Polnischen, Tschechischen und Slovakischen können wir zusätzlich nach sogenannten Tags suchen, d.h. nach morphosyntaktischen Informationen, die jedem Wort zugeordnet sind. Im folgenden polnischen Beispiel stehen unter den Worten die jeweils zugeordneten Tags und Lemmata:
bito | rekord | skoczni |
bić:imps:imperf | rekord:subst:sg:acc:m3 | skocznia:subst:sg:gen:f |
Die Bedeutung der Kürzel können hier nachgeschlagen werden:
- Russisch:
- MULTEXT-EAST, Beschreibung des Tagsets
- Slowakisch:
- Tagset des slowakischen Nationalkorpus - Übersicht über das Tagset
- Polnisch:
- Tagset des IPI PAN Korpus - Beschreibung des Tagsets
- Tschechisch:
- Tagset des Tschechischen Nationalkorpus - kurze Übersicht über die Tags, genauere Beschreibung.
Beispielanfragen (für Polnisch):
[tag=".*imps.*"] findet alle Vorkommen des bezosobnik, also `bito', `chodzono', etc. (zur Verwendung von `.*' siehe unten)
[tag=".*acc.*"] findet alle Nomen im Akkusativ.
Reguläre Ausdrücke.
Um sowohl rot als auch Rot zu finden, kann man die Schreibweise [Rr]ot verwenden. Mit eckigen Klammern sucht man also nach mehreren alternativen Zeichen gleichzeitig. Mit einem Punkt bezeichnet man ein beliebiges Zeichen.
Der Ausdruck [word="[Rr]ot."] findet also alle Worte, die mit r oder R anfangen und mit ot und einem weiteren beliebigen Buchstaben enden.
Man kann auch nach Wiederholungen eines Zeichens suchen. Dazu stellt man einen von den folgenden drei Operatoren:
- + bezeichnet das ein- oder mehrmalige Vorkommen dieses Zeichens
- * bezeichnet das kein- oder mehrmalige Vorkommen dieses Zeichens
- ? bezeichnet das kein- oder einmalige Vorkommen dieses Zeichens
Möchten wir also z.B. neben `rot' und `Rot' auch `roter' und `Roter' finden, so können wir z.B. folgende Muster verwenden:
[word="[Rr]ot.*"] suche alle Worte, die mit mit R oder r anfangen, mit ot weitergehen und mit irgendwelchen Buchstaben, egal wie vielen, enden.
Was finden die Anfragen [word="[Rr]ot.?"] und [word="[Rr]ot.+"] ?
Was finden die Anfragen [lemma="[Rr]ot.?"] und [lemma="[Rr]ot.+"] ?
Mehr zur Anfragesprache findet sich
hier
Beispielabfragen
- [tag=".*imps.*"] [ ] [tag=".*acc.*"]
- [lemma="robić"] [ ] [tag=".*acc.*"]
- [lemma="robić"] [tag=".*m3.*"]
- [word="nie"] [lemma="robić"]
- ...
Weiteres
Mehrfache Übersetzungen desselben Textes werden als Übersetzungen in eine zusätzliche Sprache aufgefasst. Sprachvarianten (German-A, Russian-A) beziehen sich also auf solche Fälle und beinhalten jeweils die zusätzliche Übersetzung.
Die Textkürzel sind i.A. aus Autor und Titel gebildet, so etwa bezeichnet etwa StrugLebedi: Boris i Arkadij Strugackie, Gadkie lebedi. Ausnahmen sind z.Z. EUVerf - Die Verfassung der EU; SloOestHK - Newsletter der Slovakisch-Österreichischen Handelskammer. Genaueres siehe Liste der Sprachen und Texte
File translated from
TEX
by
TTH,
version 3.74.
On 25 Jun 2007, 16:28.