|
|
|
|
|
|
|
NaturallySpeaking: Basics
In den Folgebeiträgen werde ich gezielt auf einige Schwächen eingehen, die in
der Funktion und vor allem in der Bedienung von NaturallySpeaking liegen. Bevor
ich jedoch einzelne Lösungsvorschläge präsentiere, sollen hier die wesentlichen
Begriffe und Grundlagen erörtert werden. Neben solchen
"Begriffsbestimmungen" möchte ich auf dieser Seite auch einige
Hintergrundinformationen für noch nicht so erfahrene Benutzer geben. Dabei
basieren die hier gegebenen Einschätzungen und Informationen auf dem, was ich
mir als aus dem Programmverhalten und den öffentlich
zugänglichen Informationen zusammenreimen kann. Sie stellen somit kein
absolutes Wissen dar und sollen ebenso, wie die später folgenden Lösungsvorschläge
zur Diskussion gestellt werden. Rückmeldungen und Gedankenaustausch sind also
ausdrücklich erwünscht!
Versionsgeschichte von NaturallySpeaking
Diese älteste Version, die ich von NaturallySpeaking benutzt habe, war noch ziemlich unzufrieden stellend, auch das Diktieren nach der neuen deutschen Rechtschreibung war noch nicht möglich.
Nachdem in der deutschen Ausgabe die Version 3.0 übersprungen wurde, stellte 3.5 einen riesigen Fortschritt dar: Neben der BestMatch-Technologie und einer deutlich verbesserter Erkennungsleistung wurde die Steuerung von Windows-Desktop und -Anwendungen eingeführt und zwar in der Form, wie wir sie heute noch in Version 7 kennen.
Einen vorläufigen Höhepunkt in der Entwicklung
von NaturallySpeaking stellt meiner Ansicht nach die Version 4.0 dar. Dies war
die letzte Version, die vollständig von Dragon Systems entwickelt wurde. Dabei
wurde BestMatch verfeinert und an die neuste Prozessortechnologie
angepasst. Dieses so genannte BestMatch III-Sprachmodell wurde speziell für die
neuen Befehlssätze des damals aktuellen Pentium III-Prozessors entwickelt und
war somit wirklich auf der Höhe seiner Zeit.
Nach dem Ausverkauf von Dragon Systems an Lernout + Hauspie beginnt das eher unrühmliche Intermezzo der 5er-Versionen. Im Wesentlichen wurde die Programmoberfläche überarbeitet und annähernd auf ihre heutige Gestalt gebracht. Insbesondere in der Version 5.0 schlichen sich aber einer Reihe von Unschönheiten und Instabilitäten ein. Einziger wesentlicher Vorteil, aus meiner Sicht: Durch die neue Programmoberfläche und den Wegfall der Kompatibilitätsmodule kommt es zu einer besseren Zusammenarbeit mit Word auch bei größeren und komplizierteren Dokumenten. Außerdem wurde in der deutschen Version die Möglichkeit vorgesehen, auch in Englisch zu diktieren. Dafür mussten aber einer Reihe von Nachteilen in Kauf genommen werden: verstärkte Probleme mit der Erkennung deutscher Endungen und mit der Bildung falscher Komposita. Außerdem ließ ein sehr ärgerlicher Fehler meine mühsam trainierten Benutzerdateien plötzlich unbrauchbar werden. Ein Bugfix hierfür wurde erst sehr viel später in Form einer neuen MREC.DLL angeboten. Mein Eindruck ist, dass es bei dieser Version nach einem gewissen Training auch zu einer abnehmenden Erkennungsleistung kommt.
Nach dem Bankrott von Lernout + Hauspie wurde NaturallySpeaking durch den heutigen Eigentümer, Scansoft übernommen. Während in Amerika die Version 6 erscheint, bringt man hier eine im Funktionsumfang nicht erweiterte Version 5.5 (bzw. NaturallySpeaking XP) auf den Markt. Außer der verbesserten Kompatibilität mit Windows XP und einer neuen Sprachwiedergabe-Technik sind keine Neuerungen vorhanden. Die Version läuft allerdings spürbar stabiler und runder. Meiner Ansicht nach sind die Merkmale dieser Version somit eher die eines Bugfixes, welches normalerweise kostenlos an die Anwender hätte nachgereicht werden müssen.
In der nun nicht mehr ganz aktuellen Version 7.1 sind in vielen Details
positive Veränderungen zu verzeichnen: übersichtlichere Programmoberfläche,
VBS-kompatible Makros in der
Professional-Edition, deutlich verbesserte Kompatibilität mit noch mehr
Anwendungen (z. B. Outlook und Excel), verbesserter Buchstabiermodus und etwas
verbesserte Erkennungsleistung z. B. hinsichtlich der Wortendungen lassen diese
Version als echten Fortschritt erscheinen. Es gibt aber auch wieder etliche
Neuerungen, deren positiver Effekt fraglich scheint: Die akustische Optimierung
bringt bei einigen Benutzern eine abnehmende Erkennungsleistung, das immer
noch vorhandene Problem falscher Komposita wird dadurch verschärft, dass diese
nicht mehr als benutzerdefinierte Wörter im Vokabular auffindbar sind.
Zwischenzeitlich ist die Version 8 erschienen.
Das erste Echo hierzu im Forum ist nicht unbedingt positiv.
Es soll zwar einige Verbesserungen geben (zum Beispiel kann
bei Komposita kann die automatische Bildung und Übernahme ins
Vokabular abgeschaltet werden). Es sind wohl aber auch viele
Bugs erhalten geblieben und neue Nachteile hinzugekommen (Zwangsaktivierung
a la Windows und Office XP, die alte deutsche Rechtschreibung
wird nicht mehr unterstützt).
Ein wesentlicher Kritikpunktist für mich
die Zwangsaktivierung:
Die unterschiedlichen Editionen:
Diese Versionen sind im Funktionsumfang deutlich eingeschränkt. Es fehlen ihnen einige Features, die mir für effizientes Arbeiten wichtig scheinen. Dabei ist ihr Preisvorteil gegenüber der Preferred-Edition relativ gering. Außerdem habe ich mit diesen Versionen bislang noch nicht gearbeitet, sodass ich sie hier nicht weiter diskutieren möchte.
In den Preferred-Editionen sind bereits eine Menge sinnvoller Features enthalten: Maus-und Tastatursteuerung per Stimme, Vorlesen von Texten, Wiedergabe des diktierten Textes, Nutzung von Diktiergeräten, Diktieren auch auf Englisch.
Gegenüber der Preferred-Edition gibt es zwei wesentliche Vorteile: die
Möglichkeit, relativ komfortabel sprachgesteuerte Makros zu erstellen und ein
erweitertes Vokabular, das eine größere Menge benutzerdefinierte Wörter
zulässt. Dafür kostet diese Version auch das etwa das Vierfache der
Preferred-Edition. Wer das Programm häufig verwendet, sollte aber sorgfältig
abwägen, ob sich diese Mehrinvestition nicht auf Dauer sehr bezahlt macht.
Diese Editionen haben einen identischen
Funktionsumfang wie die Professional-Edition, verfügen aber über ein bereits
vorkonfiguriertes Fachvokabular im so genannten Middle-Slot. Manche Anwender berichten
allerdings, dass sich der Aufpreis für so ein Vokabular nicht unbedingt lohnt. Es wäre viel
günstiger, sich ein individuelles, eigenes Fachvokabular anhand von bisher
erstellten Dokumenten zu erzeugen.
System-Anforderungen und -Optimierung
Zunächst einmal muss die an der Sprachverarbeitung beteiligte Hardware eine ausreichend störungsfreie Signalverarbeitung zulassen. Falls man ein analoges Mikrofon verwendet, sind daher nicht nur dessen Eigenschaften, sondern auch die Qualität der Soundkarte entscheidend. Kritisch ist die Signalqualität häufig dann, wenn die Soundkarte auf dem Motherboard integriert ist (z. B. bei Laptops häufig der Fall) oder wenn die Soundkarte in enger räumlicher Nähe zu anderen Störquellen (Prozessor oder andere Steckkarten) verbaut wurde. Diese Abhängigkeit von der Soundkarte kann man durch Verwendung eines USB-Mikrofons umgehen, da die Analog/Digital-Wandlung außerhalb des PCs im Mikrofon-System stattfindet. Dadurch wird auch die Übertragbarkeit der Benutzerdateien zwischen unterschiedlichen Computersystemen verbessert, sodass man unter Verwendung der gleichen Benutzerdateien mit dem USB-Mikrofon z. B. am Laptop und am PC diktieren kann. Der erhebliche Zeitaufwand für das doppelte Anlegen und Trainieren der Benutzerdateien kann dadurch entfallen. Ich benutze ein USB-Mikrofon (DSP-100 von Plantronics), mit dem ich sehr gute Erfahrungen gemacht habe. Auch bei Headset-Mikrofonen ist allerdings eine korrekte und reproduzierbare Positionierung des Mikrofons wichtig. Dies kann man zum Beispiel durch einen einfachen Tipp und beim DSP-100 durch eine zusätzliche Modifikation entscheidend verbessern.
Die Spracherkennung stellt außerdem erhebliche Anforderungen an folgende Computerressourcen: Prozessorleistung, physikalischer Speicher, virtueller Speicher und Festplattenplatz. Da Windows 2000 und Windows XP mit diesen Ressourcen erheblich besser umgehen, als Windows 9X und Windows ME, empfehlen sich die letztgenannten Betriebssysteme nicht. Mein persönlicher Favorit unter den Betriebssystemen ist zurzeit auf jeden Fall Windows 2000, da es im Vergleich zu Windows XP deutlich schlanker und funktioneller ist. Außerdem braucht man nicht jedes Mal bei Microsoft um Erlaubnis fragen, wenn man an der Hardware etwas ändern oder das Betriebssystem neu aufsetzen muss. (Wie oft und für welchen Zeitraum ein Schlüssel für die Zwangsaktivierung von Windows XP langfristig überhaupt erhältlich ist, wird die Zukunft zeigen.) Da ich zum Diktieren in den letzten Jahren lediglich Windows 2000 verwendet habe, sind alle weiteren Angaben nur auf dieses Betriebssystem bezogen, lassen sich aber mit geringen Abstrichen sicherlich auch auf Windows XP übertragen.
Meine Erfahrung mit NaturallySpeaking 7 unter Windows 2000 zeigt, dass 512
MB Hauptspeicher durchaus als ausreichend zu betrachten sind. So richtig
zügig verläuft die Spracherkennung in Version 7 allerdings nur, wenn ich den
Schieberegler in den Programmoptionen zu Lasten der Genauigkeit auf die
schnellste Erkennung einstelle. Ein schnellerer Prozessor als mein mit 2 GHz
getakteter Athlon XP 2400 wäre daher für Version 7 wünschenswert. Für die
älteren Versionen kann 2 GHz jedoch als eine absolut ausreichende
Prozessorgeschwindigkeit betrachtet werden.
Es wird berichtet, dass eine möglichst tägliche Defragmentierung der
Festplatte einen erheblichen Leistungszuwachs von NaturallySpeaking
bedeutet.
Es gibt zwar auch (kostenpflichtige) Tools zum Defragmentieren, meiner Ansicht nach reicht jedoch die in Windows 2000 eingebaute Funktion aus, die man wie folgt startet: Rechtsklick auf das Laufwerk im Windows-Explorer und dann Eigenschaften/Extras/jetzt defragmentieren ... klicken.
Sowohl zur Vermeidung der Fragmentierung, als auch für eine vereinfachte
Datensicherung ist außerdem unbedingt zu empfehlen, die "Eigenen Dateien" nicht
auf dem Laufwerk des Betriebssystems zu lagern. Dazu wird vor oder während der
Installation des Betriebssystems eine separate Partition für die Daten
angelegt. Nachträglich kann man dies z.B. mit dem PTS-Partitionmanager oder
mit PowerQuest PartitionMagic durchführen.
Insbesondere bei Performanceproblemen auf schwächer ausgestatteten Systemen
empfiehlt es sich, die Systemauslastung durch im Hintergrund laufende
Anwendungen zu verringern, um die Ressourcen und die Prozessorzeit
möglichst vollständig für NaturallySpeaking zur Verfügung zu stellen. Dabei
bieten sich folgende Ansatzpunkte:
1. Oft werden beim Systemstart eine Reihe von Diensten und Anwendungen geladen, die für die aktuelle Aufgabe nicht benötigt werden. Diese können zwar auch manuell gestoppt werden, in der Regel aber dürfte sich der Einsatz des Tools End It All hierfür besser eignen. (Da der Copyright-Inhaber dies nicht wünscht, biete ich hier keinen Link auf einen kostenlosen Download an, obwohl solche Quellen im Internet zurzeit problemlos zu finden sind.)
2.
Wenn am Arbeits-PC eine Virengefahr praktisch ausgeschlossen werden kann,
ist zu überlegen, ob man auch die Hintergrundüberwachung durch einen Virenscanner
ausschaltet. Diese Hintergrundüberwachung kann nämlich auf das Leistungsverhalten
und die Stabilität einiger Anwendungen einen äußerst negativen Einfluss haben.
Um meinen Arbeits-PC ohne permanent laufenden Virenscanner betreiben zu können,
nutze ich das Internet nur über meinen alten Zweit-PC. (Dadurch erspare ich mir
auch die Notwendigkeit, meine Arbeitsumgebung permanent durch das Einspielen
von Service Packs und Sicherheitsupdates durcheinander zu konfigurieren.) Ich
kann allerdings auch ausschließen, dass jemand anderes eine kontaminierte
Diskette oder CD in den Arbeits-PC eingelegt.
Zur Ressourcenoptimierung reicht es allerdings oft nicht, wenn man unnötige Anwendungen im Hintergrund beendet. Dies als zwei Ursachen:
1. Zum einen geben manche Anwendungen unter bestimmten
Bedingungen den von ihnen belegten Speicher zum Beispiel beim Beenden nicht
vollständig wieder frei. In diesem Zusammenhang spricht man auch von einem
Speicherleck. Der durch ein solches Leck verloren gegangene Speicher wird in
der Regel erst bei einem Neustart des Systems wieder freigegeben. Hier hilft
das Tool FreeRam
XP Pro. Allerdings berichten manche Anwender auch nach
mehrstündigem Diktieren von Performance-Problemen, die auf ein Speicherleck bei
NaturallySpeaking selbst hindeuten. Hier konnte das Tool ebenfalls erfolgreich
eingesetzt werden, um in solchen Fällen das System nicht mehrmals täglich
neustarten zu müssen.
Aufbau und Funktion des Vokabulars
Da die einzelnen Begriffe zum Teil etwas
inkonsistent verwendet werden, soll hier neben allgemeinen Erläuterungen zum
Aufbau des Vokabulars auch eine Begriffsdefinition versucht werden. Die vorliegenden
Informationen stammen größtenteils aus den Hilfedateien von NaturallySpeaking
und aus Beiträgen von Dragon-Fachhändlern im Support-Forum.
Wenn ein neuer Benutzer angelegt wird, so enthält das Vokabular zunächst einmal nur den Grundwortschatz und ein noch untrainiertes Sprachmodell. Beim Anlegen des Benutzers kann zwischen einem BestMatch und einem BestMatch Plus Vokabular gewählt werden. Letzteres enthält ein erweitertes Sprachmodell, das höhere Speicheranforderungen stellt. Insbesondere bei der Analyse von bereits erstellten Dokumenten (Vokabularoptimierung), möglicherweise aber auch bei der Dokumentenerstellung selber, sammelt NaturallySpeaking dann statistische Informationen darüber, in welchem Kontext die einzelnen Wörter des Wortschatzes auftreten. Anhand dieser Informationen passt NaturallySpeaking das Sprachmodell an die Eigenarten des Benutzers an und entscheidet, welche Bedeutung einer bestimmte Lautfolge im konkreten Wortzusammenhang wohl "höchstwahrscheinlich" vom Sprecher gemeint war. Der Wortschatz besteht aus einer Liste der für NaturallySpeaking bekannten Wörter und ihrer Aussprache. Dem Wortschatz zuzurechnen sind vermutlich auch die Worteigenschaften (z. B. ob vor oder nach dem Wort Leerzeichen zu setzen sind). Neben der inhaltlichen Unterteilung in Wortschatz und Sprachmodell ist das Vokabular aber auch in Speicherbereiche mit unterschiedlicher Verfügbarkeit gegliedert. Dies veranschaulicht die folgende Grafik:
Zunächst einmal ist nur ein Teil des Vokabulars aktiv, d. h. in den Hauptspeicher geladen und für die Erkennung verfügbar. Auf den anderen (passiven) Teil des Vokabulars kann man allerdings im Korrekturfenster zugreifen. Diese Wörter liegen im so genannten Lexikon auf der Festplatte. (Dabei ist mir allerdings nicht ganz klar, ob der Begriff "Lexikon", so wie er von ScanSoft gebraucht wird, lediglich den Grundwortschatz oder auch die vom Benutzer neu hinzugefügten Wörter umfasst. Ich verwende daher lieber den Begriff "Grundwortschatz", der in seiner Bedeutung etwas selbsterklärender ist.)
Durch Auswahl von Wörtern des passiven Wortschatzes im Korrekturfenster werden diese dann in das aktive Vokabular übernommen und können beim Diktieren auch erkannt werden. Um das Volumen des aktiven Vokabulars konstant zu halten, wandern zum Ausgleich dafür wenig benutzte Wörter in den passiven Teil des Vokabulars. Ob allerdings auch die vom Benutzer hinzugefügten Wörter in den passiven Wortschatz übergehen können oder ob diese einfach "vergessen werden" ist mir nicht bekannt. Klar ist auf hingegen, dass benutzerdefinierte Wörter, solange sie aktiv sind, lediglich in einem sehr limitierten Speicherbereich vorgehalten werden: dem so genannten User-Slot. In Professional und höheren Editionen kann zusätzlich jedoch auch ein "Stammvokabular" im so genannten Middle-Slot hinterlegt werden. Das Stammvokabular kann jedoch nicht beim Diktieren über die normale Programmoberfläche verändert, sondern nur mit Hilfe eines speziellen Tools konfiguriert werden.
Der springende Punkt der beschriebenen
Aufteilung des
Vokabulars liegt in der maximal verfügbaren Größe der Slots und somit in der
Anzahl der von NaturallySpeaking erlernbaren Wörter. Da der Softwarehersteller
selbst hierzu keine Angaben macht, liegen mir hierzu lediglich Informationen
aus dem Support-Forum durch die Fachhändler vor.
Wie man sieht, sind in der Tabelle noch etliche Fragezeichen vorhanden. Sollte
ein Leser genauere Informationen haben, so wäre ich für eine kurze E-Mail dankbar,
damit ich die Informationen gegebenenfalls aktualisieren kann.
|
|
Copyright(c) 2004 Christian Nerger, alle Rechte vorbehalten. |