Logo der NatSpeak-Seiten

Tipps, Lösungshilfen und Downloads aus der EDV-Trickkiste

 


Letztes Update dieser Seite: 8.2.2005

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

NaturallySpeaking: Basics

 

Vorbemerkungen

In den Folgebeiträgen werde ich gezielt auf einige Schwächen eingehen, die in der Funktion und vor allem in der Bedienung von NaturallySpeaking liegen. Bevor ich jedoch einzelne Lösungsvorschläge präsentiere, sollen hier die wesentlichen Begriffe und Grundlagen erörtert werden. Neben solchen "Begriffsbestimmungen" möchte ich auf dieser Seite auch einige Hintergrundinformationen für noch nicht so erfahrene Benutzer geben. Dabei basieren die hier gegebenen Einschätzungen und Informationen auf dem, was ich mir als aus dem Programmverhalten und den öffentlich zugänglichen Informationen zusammenreimen kann. Sie stellen somit kein absolutes Wissen dar und sollen ebenso, wie die später folgenden Lösungsvorschläge zur Diskussion gestellt werden. Rückmeldungen und Gedankenaustausch sind also ausdrücklich erwünscht!

Außerdem erheben die hier diskutierten Aspekte keinen Anspruch auf Vollständigkeit, sie sollen lediglich das Hintergrundwissen für die später diskutierten Lösungsvorschläge bieten und werden wohl auch fortlaufend ergänzt werden müssen.

Den Einsatz der hier angesprochenen Tools erläuterte ich in einem separaten Artikel, der später folgen wird.

 

Versionsgeschichte von NaturallySpeaking

NaturallySpeaking 2.2 (1998):

Diese älteste Version, die ich von NaturallySpeaking benutzt habe, war noch ziemlich unzufrieden stellend, auch das Diktieren nach der neuen deutschen Rechtschreibung war noch nicht möglich.

 

NaturallySpeaking 3.5 (1999):

Nachdem in der deutschen Ausgabe die Version 3.0 übersprungen wurde, stellte 3.5 einen riesigen Fortschritt dar: Neben der BestMatch-Technologie und einer deutlich verbesserter Erkennungsleistung wurde die Steuerung von Windows-Desktop und -Anwendungen eingeführt und zwar in der Form, wie wir sie heute noch in Version 7 kennen.

 

NaturallySpeaking 4.0 (2000):

Einen vorläufigen Höhepunkt in der Entwicklung von NaturallySpeaking stellt meiner Ansicht nach die Version 4.0 dar. Dies war die letzte Version, die vollständig von Dragon Systems entwickelt wurde. Dabei wurde BestMatch verfeinert und an die neuste Prozessortechnologie angepasst. Dieses so genannte BestMatch III-Sprachmodell wurde speziell für die neuen Befehlssätze des damals aktuellen Pentium III-Prozessors entwickelt und war somit wirklich auf der Höhe seiner Zeit.
An der Bezeichnung des Sprachmodells und an seinen Prozessoranforderungen (Pentium III-Prozessor, 450 beziehungsweise 500 MHz) hat sich bis heute wenig geändert. Man mag daraus schließen, dass sich an der Erkennungs-Engine und ihrer grundlegenden Genauigkeit in den folgenden drei Versionen dann eher nicht mehr so viel getan hat.
Der einzige wesentliche Nachteil dieser Version ist aus meiner heutigen Sicht lediglich die schlechte Zusammenarbeit mit Word über die damals noch notwendigen Kompatibilitätsmodule. In längeren und komplizierteren Word-Dokumenten mit vielen Grafiken und besonderen Formatierungen und Feldern verlor NaturallySpeaking häufig die Orientierung und schrieb bzw. korrigierte an der falschen Stelle.
Die wesentlichen Funktionen dieser Version funktionierten nach meiner Erfahrung allerdings nahezu perfekt: Es gab wenig Probleme mit der Erkennung von Wortendungen und ausgezeichnete Langzeitstabilität der Sprachdateien - auch nach längerem Training gab es keine Tendenz zu einer rückläufigen Erkennungsleistung, wie ich das in späteren Versionen immer wieder feststellen musste.

 

NaturallySpeaking 5.0 (Ende 2000):

Nach dem Ausverkauf von Dragon Systems an Lernout + Hauspie beginnt das eher unrühmliche Intermezzo der 5er-Versionen. Im Wesentlichen wurde die Programmoberfläche überarbeitet und annähernd auf ihre heutige Gestalt gebracht. Insbesondere in der Version 5.0 schlichen sich aber einer Reihe von Unschönheiten und Instabilitäten ein. Einziger wesentlicher Vorteil, aus meiner Sicht: Durch die neue Programmoberfläche und den Wegfall der Kompatibilitätsmodule kommt es zu einer besseren Zusammenarbeit mit Word auch bei größeren und komplizierteren Dokumenten. Außerdem wurde in der deutschen Version die Möglichkeit vorgesehen, auch in Englisch zu diktieren. Dafür mussten aber einer Reihe von Nachteilen in Kauf genommen werden: verstärkte Probleme mit der Erkennung deutscher Endungen und mit der Bildung falscher Komposita. Außerdem ließ ein sehr ärgerlicher Fehler meine mühsam trainierten Benutzerdateien plötzlich unbrauchbar werden. Ein Bugfix hierfür wurde erst sehr viel später in Form einer neuen MREC.DLL angeboten. Mein Eindruck ist, dass es bei dieser Version nach einem gewissen Training auch zu einer abnehmenden Erkennungsleistung kommt.

 

NaturallySpeaking 5.5 (2002):

Nach dem Bankrott von Lernout + Hauspie wurde NaturallySpeaking durch den heutigen Eigentümer, Scansoft übernommen. Während in Amerika die Version 6 erscheint, bringt man hier eine im Funktionsumfang nicht erweiterte Version 5.5 (bzw. NaturallySpeaking XP) auf den Markt. Außer der verbesserten Kompatibilität mit Windows XP und einer neuen Sprachwiedergabe-Technik sind keine Neuerungen vorhanden. Die Version läuft allerdings spürbar stabiler und runder. Meiner Ansicht nach sind die Merkmale dieser Version somit eher die eines Bugfixes, welches normalerweise kostenlos an die Anwender hätte nachgereicht werden müssen.

 

NaturallySpeaking 7 (2003):

In der nun nicht mehr ganz aktuellen Version 7.1 sind in vielen Details positive Veränderungen zu verzeichnen: übersichtlichere Programmoberfläche, VBS-kompatible Makros in der Professional-Edition, deutlich verbesserte Kompatibilität mit noch mehr Anwendungen (z. B. Outlook und Excel), verbesserter Buchstabiermodus und etwas verbesserte Erkennungsleistung z. B. hinsichtlich der Wortendungen lassen diese Version als echten Fortschritt erscheinen. Es gibt aber auch wieder etliche Neuerungen, deren positiver Effekt fraglich scheint: Die akustische Optimierung bringt bei einigen Benutzern eine abnehmende Erkennungsleistung, das immer noch vorhandene Problem falscher Komposita wird dadurch verschärft, dass diese nicht mehr als benutzerdefinierte Wörter im Vokabular auffindbar sind.

 

NaturallySpeaking 8 (Ende 2004):

Zwischenzeitlich ist die Version 8 erschienen. Das erste Echo hierzu im Forum ist nicht unbedingt positiv. Es soll zwar einige Verbesserungen geben (zum Beispiel kann bei Komposita kann die automatische Bildung und Übernahme ins Vokabular abgeschaltet werden). Es sind wohl aber auch viele Bugs erhalten geblieben und neue Nachteile hinzugekommen (Zwangsaktivierung a la Windows und Office XP, die alte deutsche Rechtschreibung wird nicht mehr unterstützt).
Bislang bin ich mit der Performance der Version 7 ganz zufrieden und werde daher nicht updaten. (Die dort vorhandenen Bugs kenne ich zumindest und vielleicht komme ich noch dazu, zumindest für den einen oder anderen Fehler einen der geplanten Workarounds zu entwickeln.)

 

Ein wesentlicher Kritikpunktist für mich die Zwangsaktivierung:
Sicher werden sich die meisten Anwender an solche Praktiken bereits gewöhnt haben. Auf mein Rechner werden es allerdings Windows und Office XP, Mathcad 11 und ihre Nachfolger nur schaffen, wenn sich mit den Vorgängerversionen wirklich nicht mehr effizient arbeiten lässt oder die Aktivierung in der heutigen Form nicht mehr notwendig ist.
Für mich ist Zwangsaktivierung so etwas, wie ein Auto zu kaufen, bei dem der Schlüssel zum Benzintank beim Hersteller verbleibt. Ich kann den Kaufgegenstand nicht dauerhaft bestimmungsgemäß benutzen, ohne immer wieder beim Support des Herstellers um Erlaubnis fragen zu müssen. Andererseits sind solche Supportleistungen, wie das Übermitteln von Aktivierungsschlüsseln durch die Hersteller nicht dauerhaft garantiert. Wie schnell es sogar zur völligen Einstellung von Supportleistung durch den Hersteller kommen kann, haben wir ja nach der Pleite von Lernout + Hauspie erlebt: Über viele Monate gab es nicht den geringsten Hersteller-Support, bis die Übernahme durch ScanSoft dann doch noch zu Stande kam.
Damit für die Verpflichtungen von Pleite gegangenen Reiseunternehmen garantiert aufgekommen wird, gibt es mittlerweile ein Gesetz. Die Softwarehersteller, die die bestimmungsgemäße Verwendung ihrer Software ermöglichen müssen, haben nun die Erbringung dieser Grundvoraussetzung zeitlich auf die gesamte Betriebsdauer des Software ausgedehnt. Diese Betriebsdauer ist theoretisch allerdings unbegrenzt und es kann während dieser Dauer immer wieder zur Erfordernis einer Neu-Aktivierung kommen. Wenn die Softwarehersteller in eine Versicherung, einen Fonds oder eine sonstige Institution investieren würden, die diese Dienstleistung dauerhaft garantiert, dann würde ich sicherlich auch bereitwillig eine Software mit Zwangsaktivierung kaufen.
Damit ich nicht falsch verstanden werde: ich kritisiert keineswegs das Motiv des Softwarehersteller. Die Unterbindung der mittlerweile überhand nehmenden Raubkopien ist ein berechtigtes Interesse. Ich glaube nur, dass es bei einer Software, die um die 1000 € kostet, intelligentere Lösungen geben müsste. Nämlich solche, bei denen dem Eigentümer des Produktes auch alle zum dauerhaften Betrieb erforderlichen Schlüssel überlassen werden. (Das klappt doch bei Autos auch, oder nicht?)

 

 

Die unterschiedlichen Editionen:

Einsteigerversionen (Point & Speak, Standard, ...):

Diese Versionen sind im Funktionsumfang deutlich eingeschränkt. Es fehlen ihnen einige Features, die mir für effizientes Arbeiten wichtig scheinen. Dabei ist ihr Preisvorteil gegenüber der Preferred-Edition relativ gering. Außerdem habe ich mit diesen Versionen bislang noch nicht gearbeitet, sodass ich sie hier nicht weiter diskutieren möchte.

 

Preferred-Edition:

In den Preferred-Editionen sind bereits eine Menge sinnvoller Features enthalten: Maus-und Tastatursteuerung per Stimme, Vorlesen von Texten, Wiedergabe des diktierten Textes, Nutzung von Diktiergeräten, Diktieren auch auf Englisch.

 

Professional-Edition:

Gegenüber der Preferred-Edition gibt es zwei wesentliche Vorteile: die Möglichkeit, relativ komfortabel sprachgesteuerte Makros zu erstellen und ein erweitertes Vokabular, das eine größere Menge benutzerdefinierte Wörter zulässt. Dafür kostet diese Version auch das etwa das Vierfache der Preferred-Edition. Wer das Programm häufig verwendet, sollte aber sorgfältig abwägen, ob sich diese Mehrinvestition nicht auf Dauer sehr bezahlt macht.

 

Fachspezifische Editionen (Legal, Banking, ...):

Diese Editionen haben einen identischen Funktionsumfang wie die Professional-Edition, verfügen aber über ein bereits vorkonfiguriertes Fachvokabular im so genannten Middle-Slot. Manche Anwender berichten allerdings, dass sich der Aufpreis für so ein Vokabular nicht unbedingt lohnt. Es wäre viel günstiger, sich ein individuelles, eigenes Fachvokabular anhand von bisher erstellten Dokumenten zu erzeugen.
 

 

System-Anforderungen und -Optimierung

Hardware und Betriebssystem

Zunächst einmal muss die an der Sprachverarbeitung beteiligte Hardware eine ausreichend störungsfreie Signalverarbeitung zulassen. Falls man ein analoges Mikrofon verwendet, sind daher nicht nur dessen Eigenschaften, sondern auch die Qualität der Soundkarte entscheidend. Kritisch ist die Signalqualität häufig dann, wenn die Soundkarte auf dem Motherboard integriert ist (z. B. bei Laptops häufig der Fall) oder wenn die Soundkarte in enger räumlicher Nähe zu anderen Störquellen (Prozessor oder andere Steckkarten) verbaut wurde.

Diese Abhängigkeit von der Soundkarte kann man durch Verwendung eines USB-Mikrofons umgehen, da die Analog/Digital-Wandlung außerhalb des PCs im Mikrofon-System stattfindet. Dadurch wird auch die Übertragbarkeit der Benutzerdateien zwischen unterschiedlichen Computersystemen verbessert, sodass man unter Verwendung der gleichen Benutzerdateien mit dem USB-Mikrofon z. B. am Laptop und am PC diktieren kann. Der erhebliche Zeitaufwand für das doppelte Anlegen und Trainieren der Benutzerdateien kann dadurch entfallen. Ich benutze ein USB-Mikrofon (DSP-100 von Plantronics), mit dem ich sehr gute Erfahrungen gemacht habe.

Auch bei Headset-Mikrofonen ist allerdings eine korrekte und reproduzierbare Positionierung des Mikrofons wichtig. Dies kann man zum Beispiel durch einen einfachen Tipp und beim DSP-100 durch eine zusätzliche Modifikation entscheidend verbessern.

 

Die Spracherkennung stellt außerdem erhebliche Anforderungen an folgende Computerressourcen: Prozessorleistung, physikalischer Speicher, virtueller Speicher und Festplattenplatz. Da Windows 2000 und Windows XP mit diesen Ressourcen erheblich besser umgehen, als Windows 9X und Windows ME, empfehlen sich die letztgenannten Betriebssysteme nicht. Mein persönlicher Favorit unter den Betriebssystemen ist zurzeit auf jeden Fall Windows 2000, da es im Vergleich zu Windows XP deutlich schlanker und funktioneller ist. Außerdem braucht man nicht jedes Mal bei Microsoft um Erlaubnis fragen, wenn man an der Hardware etwas ändern oder das Betriebssystem neu aufsetzen muss. (Wie oft und für welchen Zeitraum ein Schlüssel für die Zwangsaktivierung von Windows XP langfristig überhaupt erhältlich ist, wird die Zukunft zeigen.) Da ich zum Diktieren in den letzten Jahren lediglich Windows 2000 verwendet habe, sind alle weiteren Angaben nur auf dieses Betriebssystem bezogen, lassen sich aber mit geringen Abstrichen sicherlich auch auf Windows XP übertragen.

Meine Erfahrung mit NaturallySpeaking 7 unter Windows 2000 zeigt, dass 512 MB Hauptspeicher durchaus als ausreichend zu betrachten sind. So richtig zügig verläuft die Spracherkennung in Version 7 allerdings nur, wenn ich den Schieberegler in den Programmoptionen zu Lasten der Genauigkeit auf die schnellste Erkennung einstelle. Ein schnellerer Prozessor als mein mit 2 GHz getakteter Athlon XP 2400 wäre daher für Version 7 wünschenswert. Für die älteren Versionen kann 2 GHz jedoch als eine absolut ausreichende Prozessorgeschwindigkeit betrachtet werden.

 

Defragmentierung und Systemkonfiguration

Es wird berichtet, dass eine möglichst tägliche Defragmentierung der Festplatte einen erheblichen Leistungszuwachs von NaturallySpeaking bedeutet.
Nach meiner Einschätzung ist es bei Verwendung des NTFS-Dateisystems aber völlig ausreichend, die Festplatte lediglich ab und zu zu defragmentieren, wenn man den virtuellen Speicher auf einen festen Wert einstellt. Die entsprechende Einstellung erreicht man über Klick auf: Start/Einstellungen/Systemsteuerung und dann über System/Erweitert/Systemleistung/Ändern (siehe folgende Abbildung). Im Dialog "virtueller Arbeitsspeicher" wählt man dann eine identische Anfangs- und Maximalgröße für die Auslagerungsdatei. (Der bei 512 MB Hauptspeicher empfohlene Wert von 766 MB sollte im Normalfall völlig ausreichen.) Wichtig ist, dass bei der Definition der Auslagerungsdatei das verwendete Laufwerk ausreichend freien Speicherplatz aufweist und frisch defragmentiert ist.

So gelangt man in Windows 2000 an die Einstellung für die Auslagerungsdatei

Es gibt zwar auch (kostenpflichtige) Tools zum Defragmentieren, meiner Ansicht nach reicht jedoch die in Windows 2000 eingebaute Funktion aus, die man wie folgt startet: Rechtsklick auf das Laufwerk im Windows-Explorer und dann Eigenschaften/Extras/jetzt defragmentieren ... klicken.

 

Sowohl zur Vermeidung der Fragmentierung, als auch für eine vereinfachte Datensicherung ist außerdem unbedingt zu empfehlen, die "Eigenen Dateien" nicht auf dem Laufwerk des Betriebssystems zu lagern. Dazu wird vor oder während der Installation des Betriebssystems eine separate Partition für die Daten angelegt. Nachträglich kann man dies z.B. mit dem PTS-Partitionmanager oder mit PowerQuest PartitionMagic durchführen.
Dann verschiebt man am besten das Systemverzeichnis "Eigene Dateien" auf dieses separate Laufwerk. Dazu geht man wie folgt vor: Im Windows-Explorer führt man ein Rechtsklick aus auf den Systemordner "Eigene Dateien", er sollte direkt unterhalb des Desktops liegen. Nach Auswahl von "Eigenschaften" gibt man in der Registerkarte "Ziel" des Dialogs den Pfad zu einem neuen Ordner auf dem separaten Daten-Laufwerk an. Ein Klick auf die Schaltfläche "Verschieben" verschiebt die bisher im Systemverzeichnis „Eigene Dateien“ gesammelten Daten an den neuen Platz.

 

Anwendungen im Hintergrund

Insbesondere bei Performanceproblemen auf schwächer ausgestatteten Systemen empfiehlt es sich, die Systemauslastung durch im Hintergrund laufende Anwendungen zu verringern, um die Ressourcen und die Prozessorzeit möglichst vollständig für NaturallySpeaking zur Verfügung zu stellen. Dabei bieten sich folgende Ansatzpunkte:

 

1. Oft werden beim Systemstart eine Reihe von Diensten und Anwendungen geladen, die für die aktuelle Aufgabe nicht benötigt werden. Diese können zwar auch manuell gestoppt werden, in der Regel aber dürfte sich der Einsatz des Tools End It All hierfür besser eignen. (Da der Copyright-Inhaber dies nicht wünscht, biete ich hier keinen Link auf einen kostenlosen Download an, obwohl solche Quellen im Internet zurzeit problemlos zu finden sind.)

 

2. Wenn am Arbeits-PC eine Virengefahr praktisch ausgeschlossen werden kann, ist zu überlegen, ob man auch die Hintergrundüberwachung durch einen Virenscanner ausschaltet. Diese Hintergrundüberwachung kann nämlich auf das Leistungsverhalten und die Stabilität einiger Anwendungen einen äußerst negativen Einfluss haben. Um meinen Arbeits-PC ohne permanent laufenden Virenscanner betreiben zu können, nutze ich das Internet nur über meinen alten Zweit-PC. (Dadurch erspare ich mir auch die Notwendigkeit, meine Arbeitsumgebung permanent durch das Einspielen von Service Packs und Sicherheitsupdates durcheinander zu konfigurieren.) Ich kann allerdings auch ausschließen, dass jemand anderes eine kontaminierte Diskette oder CD in den Arbeits-PC eingelegt.
Vernetzt man jedoch den Internet-PC mit dem Arbeits-PC über ein LAN, so ist Folgendes zu beachten: Im Windows-Explorer sollte man über einen Rechtsklick auf "Netzwerkumgebung" die Eigenschaften aufrufen und dann für die LAN-Verbindung das Internetprotokoll (TCP/IP) deaktivieren und stattdessen z. B. mit dem NETBEUI-Protokoll arbeiten (siehe folgende Abbildung). Dadurch kann vermieden werden, dass via Internet auch auf die freigegebenen Ordner auf dem Arbeits-PC zugegriffen werden kann.

So konfiguriert man das Protokoll im LAN

 

Speicheroptimierung

Zur Ressourcenoptimierung reicht es allerdings oft nicht, wenn man unnötige Anwendungen im Hintergrund beendet. Dies als zwei Ursachen:

 

1. Zum einen geben manche Anwendungen unter bestimmten Bedingungen den von ihnen belegten Speicher zum Beispiel beim Beenden nicht vollständig wieder frei. In diesem Zusammenhang spricht man auch von einem Speicherleck. Der durch ein solches Leck verloren gegangene Speicher wird in der Regel erst bei einem Neustart des Systems wieder freigegeben. Hier hilft das Tool FreeRam XP Pro. Allerdings berichten manche Anwender auch nach mehrstündigem Diktieren von Performance-Problemen, die auf ein Speicherleck bei NaturallySpeaking selbst hindeuten. Hier konnte das Tool ebenfalls erfolgreich eingesetzt werden, um in solchen Fällen das System nicht mehrmals täglich neustarten zu müssen.

2. Anscheinend erfährt nicht nur die Festplatte, sondern auch der Hauptspeicher eine Art Fragmentierung, wenn Anwendungen zunächst Speichersegmente in unterschiedlicher Reihenfolge belegen und dann vereinzelt wieder freigeben. Insbesondere auf schwachen Systemen kann meiner Ansicht nach das Ansprechverhalten von NaturallySpeaking wesentlich verbessert werden, wenn man nicht nur die Festplatte, sondern auch den Speicher defragmentiert. Hierfür kann man das Tool RamDefXT verwenden.

 

 

Aufbau und Funktion des Vokabulars

Die Benutzerdateien

Da die einzelnen Begriffe zum Teil etwas inkonsistent verwendet werden, soll hier neben allgemeinen Erläuterungen zum Aufbau des Vokabulars auch eine Begriffsdefinition versucht werden. Die vorliegenden Informationen stammen größtenteils aus den Hilfedateien von NaturallySpeaking und aus Beiträgen von Dragon-Fachhändlern im Support-Forum.
Die Benutzerdateien (kurz: Benutzer) bestehen aus folgenden Elementen:

  1. Einstellungen des Audiosystems, die im Audioassistenten festgelegt und in der Datei audio.ini gespeichert werden.
  2. Einstellungen aus dem Dialogfeld "Optionen", die in der Datei options.ini gespeichert werden.
  3. Akustische Informationen zur Stimme des Benutzers (akustisches Modell). Diese Informationen werden beim anfänglichen oder zusätzlichen Training sowie beim Training einzelner Wörter gesammelt. Die Einbindung solcher Informationen in das akustische Model erfolgt seit Version 7 auch über ein neues Feature, die so genannte "akustische Optimierung".
  4. Das so genannte Vokabular, in dem sowohl der Wortschatz als auch das Sprachmodell enthalten sind.  Diese Informationen werden in den VOC-Dateien gespeichert (dd10voc1.voc, dd10voc2.voc, dd10voc3.voc und general.voc).

 

Die Aufteilung des Vokabulars

Wenn ein neuer Benutzer angelegt wird, so enthält das Vokabular zunächst einmal nur den Grundwortschatz und ein noch untrainiertes Sprachmodell.

Beim Anlegen des Benutzers kann zwischen einem BestMatch und einem BestMatch Plus Vokabular gewählt werden. Letzteres enthält ein erweitertes Sprachmodell, das höhere Speicheranforderungen stellt. Insbesondere bei der Analyse von bereits erstellten Dokumenten (Vokabularoptimierung), möglicherweise aber auch bei der Dokumentenerstellung selber, sammelt NaturallySpeaking dann statistische Informationen darüber, in welchem Kontext die einzelnen Wörter des Wortschatzes auftreten. Anhand dieser Informationen passt NaturallySpeaking das Sprachmodell an die Eigenarten des Benutzers an und entscheidet, welche Bedeutung einer bestimmte Lautfolge im konkreten Wortzusammenhang wohl "höchstwahrscheinlich" vom Sprecher gemeint war.

Der Wortschatz besteht aus einer Liste der für NaturallySpeaking bekannten Wörter und ihrer Aussprache. Dem Wortschatz zuzurechnen sind vermutlich auch die Worteigenschaften (z. B. ob vor oder nach dem Wort Leerzeichen zu setzen sind).

Neben der inhaltlichen Unterteilung in Wortschatz und Sprachmodell ist das Vokabular aber auch in Speicherbereiche mit unterschiedlicher Verfügbarkeit gegliedert. Dies veranschaulicht die folgende Grafik:

Zunächst einmal ist nur ein Teil des Vokabulars aktiv, d. h. in den Hauptspeicher geladen und für die Erkennung verfügbar. Auf den anderen (passiven) Teil des Vokabulars kann man allerdings im Korrekturfenster zugreifen. Diese Wörter liegen im so genannten Lexikon auf der Festplatte. (Dabei ist mir allerdings nicht ganz klar, ob der Begriff  "Lexikon", so wie er von ScanSoft gebraucht wird, lediglich den Grundwortschatz oder auch die vom Benutzer neu hinzugefügten Wörter umfasst. Ich verwende daher lieber den Begriff  "Grundwortschatz", der in seiner Bedeutung etwas selbsterklärender ist.)

 

Durch Auswahl von Wörtern des passiven Wortschatzes im Korrekturfenster werden diese dann in das aktive Vokabular übernommen und können beim Diktieren auch erkannt werden. Um das Volumen des aktiven Vokabulars konstant zu halten, wandern zum Ausgleich dafür wenig benutzte Wörter in den passiven Teil des Vokabulars. Ob allerdings auch die vom Benutzer hinzugefügten Wörter in den passiven Wortschatz übergehen können oder ob diese einfach "vergessen werden" ist mir nicht bekannt.

Klar ist auf hingegen, dass benutzerdefinierte Wörter, solange sie aktiv sind, lediglich in einem sehr limitierten Speicherbereich vorgehalten werden: dem so genannten User-Slot. In Professional und höheren Editionen kann zusätzlich jedoch auch ein "Stammvokabular" im so genannten Middle-Slot hinterlegt werden. Das Stammvokabular kann jedoch nicht beim Diktieren über die normale Programmoberfläche verändert, sondern nur mit Hilfe eines speziellen Tools konfiguriert werden.

 

Die Begrenzung der erlernbaren Wörter

Der springende Punkt der beschriebenen Aufteilung des Vokabulars liegt in der maximal verfügbaren Größe der Slots und somit in der Anzahl der von NaturallySpeaking erlernbaren Wörter. Da der Softwarehersteller selbst hierzu keine Angaben macht, liegen mir hierzu lediglich Informationen aus dem Support-Forum durch die Fachhändler vor.
Wenn der Speicherplatz im User-Slot knapp wird, fängt demnach NaturallySpeaking an, zunächst die Kontextinformationen von benutzerdefinierten Wörtern zu löschen. Um neue Wörter auch weiterhin erlernen zu können, müssen dann im weiteren Verlauf nicht nur die Kontextinformationen sondern auch selten gebrauchte benutzerdefinierte Worte gelöscht werden. Es wird häufig berichtet, dass die Erkennungsleistung von NaturallySpeaking nach anfänglicher Verbesserung wieder abnimmt. Der hier beschriebene Effekt leistet wohl einen maßgeblichen Beitrag zu dieser für die betroffenen Benutzer frustrierten Erfahrung.
Die Situation stellt sich allerdings für die verschiedenen Editionen ganz unterschiedlich dar, wie die folgende Tabelle zeigt:
 

 

Kapazität User-Slot

Kapazität Middle-Slot

Preferred-Edition und kleiner

0,5 MB (?)
ca. 800 Wörter incl. Kontext,
3000 und mehr Wörter ohne Kontextinformationen

Nicht vorhanden!

Professional-Edition und größer

Ca. 10.000 Wörter (inklusive Kontext?)

Bis zu 5 MB konfigurierbar
ca. 20.000 Wörter (inklusive Kontext?)


Wie man sieht, sind in der Tabelle noch etliche Fragezeichen vorhanden. Sollte ein Leser genauere Informationen haben, so wäre ich für eine kurze E-Mail dankbar, damit ich die Informationen gegebenenfalls aktualisieren kann.

Trotz der bestehenden Unklarheiten wird deutlich, dass die Kapazität der Professional-Edition zwar nicht unbegrenzt ist, aber bei mittelfristiger Benutzung einen deutlich spürbaren Vorteil darstellen sollte. Da jede einzelne grammatische Form eines Wortes als separater Eintrag in das Vokabular zu werten ist, sind ca. 800 benutzerdefinierte Wörter verhältnismäßig schnell überschritten.
Ich würde vermuten, dass auch die meisten Gelegenheitsbenutzer nach einem Jahr über 1000 benutzerdefinierte Wörter angesammelt haben, selbst wenn sie pro Woche nur ein bis zwei Stunden ernsthaft diktieren. Ob in einer solchen Situation der resultierende Genauigkeitsvorteil der Professional-Edition ausreicht, um die erhebliche Mehrinvestition zu rechtfertigen, vermag ich nicht zu beurteilen. Wer allerdings häufiger und insbesondere beruflich diktiert, der kann von der Professional-Edition erheblich profitieren. Selbst wenn der tatsächliche Vorteil des größeren Vokabulars bei einigen Anwendern strittig sein sollte, kann durch die Makrofähigkeit der Workflow beim Diktieren erheblich verbessert werden. (Das Thema Workflowoptimierung durch Makros und Skripte wird Gegenstand eines später folgenden Artikel sein.)

 

 


Copyright(c) 2004 Christian Nerger, alle Rechte vorbehalten.