Heute ist Post gekommen, was Neues zum testen :-)

Ich habe schon so oft gehört, dass die Spracherkennungssoftware Dragon NaturallySpeaking von Nuance gut sein soll und dass ich’s unbedingt ausprobieren soll. Es ist schon sehr verlockend, dem Computer einfach sagen zu können, was er tun soll bzw. was er schreiben soll. Ich habe vor, demnächst einiges zu schreiben und so nehme ich gerne die Hürde, etwas Neues zu lernen, um mir danach die Arbeit leichter zu gestalten.

Die Software liegt schon in einem Preissegment, wo man das Geld nicht einfach so ausgibt, um’s einfach mal auszuprobieren, sondern wo man Kosten und Nutzen schon deutlich abwägt. Einen unabhängigen und ausgiebigen Testbericht konnte ich leider nicht wirklich finden, was jetzt hier nachgeholt wird.

Spracherkennung Dragon NaturallySpeaking 13 – Testbericht

Inhaltsverzeichnis

Was wirst Du in diesem Testbericht lesen?

Ich werde die Software auf Herz und Nieren überprüfen und mir selbst und Euch die Fragen beantworten:

Wie gut ist die Erkennungsrate?
Wie lange braucht man für’s Training?
Muss ich meine Sprache in eine „Diktiersprache“ ändern oder kann ich einfach so drauf los reden?
Bewährt sich der Einsatz im Alltag?
Wie viel muss ich von Hand ausbessern?

Dazu werde ich Euch auch die Soundfiles und die original erkannten Texte zur Verfügung stellen.

Testobjekt

Dragon NaturallySpeaking Premium, Version 13

Die Software wurde mir freundlicherweise von Nuance für diesen Testbericht zur Verfügung gestellt.

Testumgebung

	Mein System	Mindestanforderungen
	Laptop: Samsung Series 5 Ultra NP530U3C
Betriebssystem	Windows 7 Home Premium (64-Bit), SP1
Arbeitsspeicher	6 GB	> 2GB (32-Bit-Systeme > 4GB (64-Bit-Systeme)
Prozessor	Intel® Core i5-3317U CPU @1,70GHz (= Quad-Core)	Intel® Dual Core mit 2,2 GHz oder äquivalenter AMD-Prozessor.
Prozessor-Cache		2 MB L2 Cache empfohlen (Mindestens 512 KB)
Freier Festplattenspeicher	> 30 GB	4 GB

Schon recht ordentliche Anforderungen. Ich habe die Hoffnung, dass mein Laptop den Unterschied in der Prozessorgeschwindigkeit durch die zwei zusätzlichen Kerne wett macht.

Also los geht’s!

Beim Auspacken kommt folgender Packungsinhalt an Tageslicht:

Installations-DVD
Schnellstartanleitung
Headset mit Adapter

Headset – erster Eindruck

Negativ:

Das Headset sitzt auf meinem Dickschädel recht fest, die Bügel werden schon deutlich nach außen gedrückt und dadurch drücken die Ohrmuscheln auf den Kiefer. Da bin ich mal auf ein längeres Tragen gespannt…

Positiv:

Dickes Audio-Kabel (Länge ca. 2m), ist dadurch weniger anfällig für Kabelbrüche.
Mitgelieferter Adapter: Da mein Laptop nur eine Audio-Buchse hat, die gleichzeitig für Kopfhörer und Mikrofon da ist (wie bei einem Smartphone), brauche ich diesen Adapter unbedingt. Danke, dass ihr hier nicht an einem Cent-Artikel gespart habt!
Klangqualität: Deutlich und klar, realistische Wiedergabe der Stimme

Selber reinhören: Die erste Aufnahme (mit Tipps zur Mikrofonpositionierung)
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
Headset_erste_Aufnahme.mp3 (645KB)

Installation

Zur Installation wird natürlich ein DVD-Laufwerk benötigt, was mein Laptop nicht hat. Also mal das externe Laufwerk aus dem Schrank ausgegraben, angeschlossen, DVD eingelegt, Installation gestartet, und Kaffee gemacht. Ok, Zeit für Frühstück. Nach ca. 30min ist die Installation bei meinem Rechner fertig.

Erster Start

Produktaktivierung geht kurz und schmerzlos.

Dann wird mein Benutzerprofil angelegt. Dazu muss ich einen Text vorlesen:

Interessanterweise verändert Dragon die Windows-Audio-Einstellungen. Die zuvor gewählte Pegeleinstellung Mikro = 75%, Verstärkung = +10dB wird auf 100% und 0dB gesetzt. Dem entsprechend schlecht ist die aufgenommene Audioqualität:

Selber reinhören: Text zur Einstellung des Mikrofons
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
03_einstellung_mikro_pass.mp3 (556KB)

Die ersten beiden Versuche scheitern daher, der dritte gelingt. Eine letzte Frage noch und Dragon ist für mich bereit! :-) (ca. 10 Min.)

Lernprogramm

Im Lernprogramm wird man an die Spracheingabe herangeführt. Ich habe es erst mal komplett durchgemacht und ca. 20 min dafür gebraucht.

Also: Satzzeichen diktieren! Ob ich die Navigationsmöglichkeiten wie z.B. „Klick auf senden“, um auf die Schaltfläche „senden“ zu klicken wirklich nutzen werde, wird sich herausstellen.

Na dann: Erster Versuch

Ich versuche mal, einen Text zu diktieren.

Irgendwas passt jedoch nicht. Wenn ich etwas spreche, hinkt mein Rechner ständig hinterher, ich muss ihm richtig Zeit lassen, bis er die Worte erkannt hat. Auch darf ich nicht zu viele Worte auf einmal sprechen, sondern muss in einer ichdiktiereeinemErstklässleretwas-Geschwindigkeit reden. Tippen geht da wesentlich schneller…

Was ist los? Tja, die Systemanforderungen: Ich bräuchte einen schnelleren Rechner! Ich bin kurz davor, den Test abzubrechen…

Update: 4 Monate später

OK, eine einfach „auspacken und loslegen“-Lösung ist die Software nicht, man muss sich die Zeit nehmen, sich richtig damit auseinanderzusetzen.

Bei mir lagen die Prioritäten der letzten Wochen einfach anders. Der Winter war im Anmarsch und wir wollten nicht unter einer dicken Schneedecke sondern lieber in der Sonne in Spanien überwintern. Dazu wollte erst die Solaranlage auf unserem Anhänger installiert werden. Ohne Strom für’s Wohnmobil auch kein Strom für den Laptop. Und damit auch kein Strom für den Test einer Spracherkennungssoftware. Das Redesign der Website hat auch noch einiges an Zeit beansprucht. Ohne Website kein Platz für den Testbericht…

Jetzt geht’s aber weiter.

Ich habe mir vorgenommen, das nächste Ebook zu diktieren!

Was mir beim ersten Test aufgefallen ist: Mein Rechner hat nicht genügend Leistung für die Software.

Darüber habe ich mir ehrlich gesagt zuvor keine Gedanken gemacht. Da ich mit meinem Laptop auch problemlos Videos schneide, bin ich nicht davon ausgegangen, irgendwo an Leistungsengpässe zu kommen. Falsch gedacht, Spracherkennung ist sehr ressourcenhungrig. Die 4 * 1,7GHz reichen da nicht aus, auf Rückfrage bei Nuance kam auch die Antwort, dass die 2,2GHz auf einem Dualcore unbedingt notwendig sind. Auch ein Quadcore braucht mindestens 2,2GHz Prozessortakt

Daher muss ich den Test etwas beschränken. Ich werde die Texte aufnehmen und dann nicht in Echtzeit sondern im Nachhinein von Dragon NaturallySpeaking 13 erkennen lassen (übrigens einer der Unterschiede zwischen Premium- und Home-Version). Ich möchte schon „naturally speaking“ und nicht nach jedem halben Satz warten, bis mein Rechner hinterherhinkt…

Zum weiteren Kennenlernen habe ich einen Probetext aufgesprochen, den die Software jetzt umwandeln soll.

Dazu wird erstmal eine neue Diktierquelle angelegt:

Rechtsklick auf das Dragon-Symbol in der Taskleiste:

Dann „Neue Diktierquelle hinzufügen“, „Digitale Audiorekorder“ auswählen und im Dialog immer weiter gehen. Bei der Konfiguration des Rekorders stehen in der Hilfe die Einstellungen, die bei den Aufnahmen verwendet werden sollen:

22kHz
.WAV
ohne Hintergrundgeräuschunterdrückung

Nur zwecks Interesse habe ich mal die verlinkte „Hardware-Kompatibilitätsliste“ aufgerufen: https://support.nuance.com/compatibility/

Gut, wenn man Englisch kann… Für meine Soundkarte gibt es folgenden Hinweis:

Auf Deutsch übersetzt und zusammengefasst:
Meine integrierte Soundkarte (wie bei den meisten Laptops) hat eine zu geringe Audioqualität. Die Mikrofonverstärkung nach oben zu regeln macht’s nicht besser.

Da kommt der Unterschied zwischen dem Erkennungsalgorithmus zwischen einer Software und dem menschlichen Hirn… Das Hirn kann auch bei schlechterer Qualität noch einiges erkennen.

Aufnahmegerät: Eine Alternative muss her

Na gut, hier die Liste, was wir so an Aufnahmegeräten dabei haben…

LG GTab
Samsung Galaxy S2
Apple iPhone 4
Zoom H2N
Laptop Wendy
Laptop Michi

Dann gehen wir die Listen mal durch, was passen könnte

Eingebaute Soundkarten
Die Soundkarte von Wendy ist zwar nicht aufgeführt, allerdings auch nicht gerade vielversprechend. Damit sind die Laptops raus.

Recorder
Das Zoom ist nicht dabei… hat aber eine Topqualität. Ist einen Versuch wert.

Smartphones
Das Samsung Galaxy S2 und das iPhone 4 sind nicht in der Liste. Halte ich auch nicht wirklich vielversprechend.

PDAs
Wenn man ein Tablet als PDA bezeichnen würde… Das LG ist nicht dabei.

Ja, das ist durchaus ernüchternd. Laut Nuance-Website ist das Diktieren auch schon mit den eingebauten Mikrofonen in neueren Laptops möglich. Bei den Systemanforderungen steht nur „Soundkarte für 16-Bit-Aufzeichnung“. Dass da jetzt das mitgelieferte Mikrofon in Kombination mit der Soundkarte keine ausreichende Qualität liefert, ärgert mich schon…

Na ja, ich probiere trotzdem mal die folgenden Varianten aus:

Laptop mit von Nuance mitgeliefertem Headset
Tablet mit von Nuance mitgeliefertem Headset
Zoom H2N

Ich gehe davon aus, dass es mit dem Zoom klappen sollte. Ist zwar etwas oversized zum Diktieren, die Aufnahmequalität ist allerdings excellent.

Ich klicke weiter und schließe die Konfiguration ab und darf wieder die Spracherkennungssoftware trainieren lassen.

Lerntext einsprechen

Das ist durchaus umfangreich. Ich habe für das erste Märchen („Der Hase und der Igel“) ca. 8min gebraucht und die vielen Anführungszeichen der direkten Rede haben mich fast wahnsinnig gemacht… Jetzt ist das Märchen auf den H2N eingesprochen, und das WAV-File auf die Festplatte kopiert.

Anschließend kommt das Einlesen in Dragon NaturallySpeaking. (Anmerkung: NaturallySpeaking kann die vom Zoom gespeicherte Datei nicht direkt einlesen. Abhilfe schafft hier: Das File mit Audacity aufmachen und einfach nochmal speichern. Dann klappt’s.)

Nach 16 Minuten ein Lichtblick:

Der Umweg ist erledigt. Jetzt geht’s endlich ans Eingemachte!

Probetext 1 umsetzen – mit H2N

Selber reinhören: Probetext 1 mit H2N
(Aufnahme mit Zoom H2N: 44100Hz, 32bit, stereo; WAV)
1_Probetext_1_H2N.mp3 (1,65MB)

Rechte Maustaste auf das Symbol in der Taskleiste – Extras – Aufnahme umsetzen:

Dann die Optionen auswählen bzw. eingestellt lassen:

Datei auswählen und auf „umsetzen“ klicken.

…es tut sich was…

…der eingesprochene Test erscheint Stück für Stück…

…nach 1 Minute ändert sich mein Gemütszustand:

Plötzlich bin ich entzückt :-)! Im Dragonpad steht mein diktierter Text!

Wie hoch ist die Erkennungsrate?

Dazu vergleiche ich den Originaltext mit dem erkannten Text und markiere die Fehler:

Folgende Fehler habe ich selber diktiert:

gut wenn	ja, das Komma habe ich vergessen
daher rede ich man daher rede ich mal über	Hier wollte ich mich selbst verbessern
Hard und Software	Hinter Hard hätte ich den Bindestrich diktieren müssen
testen :-).	Hier will ich eigentlich das zwinkernde Smiley haben

Folgende Fehler kommen von der Spracherkennung:

Person zwei.	Fehler
Oder ist das Schicksal?	schwer zu erkennen
Gegenständen Systemen	schwer zu erkennen
die von Tonalität	Fehler
Wenn die	Fehler – und zwar ein ziemlich böser ;-)

Fehler, die nicht gewertet werden:

Wenn ich mich was	tja, da war ein Versprecher drin, daher schwer zu erkennen
bedient Freundlichkeit	deutsches Wort für „Usability“ gesucht! Benutzerfreundlichkeit wäre besser…

Fazit erster Versuch:
Maschine: 3 Fehler auf 221 Wörter (Erkennungsrate 98,6%) Mensch: 6 Fehler auf 221 Wörter (Fehlerrate 2,7%) Die Änderungen speichere ich im DragonPad noch nicht und verbessere den Text auch nicht. Ich habe erstmal was anderes vor:

Probetext 1 umsetzen – Laptop mit Nuance-Headset

Selber reinhören: Probetext 1 mit Laptop und Headset
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
2_Probetext_1_laptop.mp3 (1,55MB)

Auch das kann sich sehen lassen. Ich habe mal darauf verzichtet, das Audiofile komplett durchzugehen. Das Lernprogramm wurde ja auch mit einer Aufnahme vom H2N durchgeführt.

Probetext 1 umsetzen – Tablet mit Nuance-Headset

Selber reinhören: Probetext 1 mit Tablet und Headset
(Aufnahme mit Audio Evolution Mobile: 44100Hz, 16bit, mono; WAV)
3_Probetext_1_Tablet.mp3 (1,59MB)

Ebenfalls relativ gut, auch hier bin ich das Audiofile nicht nochmal komplett durchgegangen.

Zwischenfazit

Spracherkennung mit Dragon NaturallySpeaking funktioniert!
Die höhere Erkennungsrate bei der H2N-Aufnahme erkläre ich mir damit, dass das Lernprogramm eben mit diesem Mikro durchgeführt wurde. Die Audioqualität spielt mit Sicherheit auch eine große Rolle.
Trotz den nicht optimalen Bedingungen für Laptop und Tablet sind auch hier die Erkennungsraten hoch.
Das Headset ist immer noch nicht bequem
Ab sofort wird mehr diktiert als geschrieben :-)

Weiter geht’s!

Text korrigieren

Dazu lasse ich wieder die Aufnahme vom H2N in Text umwandeln und starte mit den Korrekturen:

Für die Korrektur werden auch gleich Vorschläge angezeigt. Die könnten auch ganz einfach per Sprachbefehl übernommen werden:

Benutzerprofil aktualisieren und Dragon schließen

Schluss für heute. Beim Schließen können die neuen Erkenntnisse über das eigene Benutzerprofil gespeichert werden. Das dauert zwar ca. 15 Minuten, ich gehe allerdings davon aus, dass das mir beim nächsten Text zu Gute kommt.

Da fällt mir Tipp wieder ein, den ich mal in einem Forum gelesen habe: Neustarts sind immer wieder mal sinnvoll, damit das neu gelernte auch geladen wird.

Ist die Spracherkennung mit Dragon NaturallySpeaking empfehlenswert?

Nach aktuellem Stand ist es sehr vielversprechend. Mein Testfokus lag klar auf Texterkennung. Für die Steuerung bzw. Bedienung des Computers mit der Stimme ist zuerst ein Rechner mit den entsprechenden Systemvoraussetzungen notwendig. Gaaanz wichtig: Eine hervorragende Audioqualität sollte gewährleistet sein! Eine endgültige Beurteilung mit Beispieltexten kommt bald.

Update: 12 Monate später

Spracherkennung mit Dragon Naturally Speaking ist fest in meinen Arbeitsprozess eingebunden:

So gut wie alle neuen Artikel habe ich diktiert
Das Ebook Mobiles Internet habe ich komplett diktiert
Längere E-Mails diktiere ich auch ganz gerne (z.b. während Autofahrten)

Für mich ist folgende Vorgehensweise beim Erstellen von Texten sehr hilfreich:

Brainstorming
Struktur erstellen
Diktieren, Spracherkennung
Text überarbeiten
Feinschliff, Formatierung, Layout

Mein persönliches Abschluss-Fazit

Auch wenn das Diktieren eventuell ein bisschen länger braucht als das Schreiben, bleibe ich konzentriert und am Stück bei der Sache, da das Aufnahmegerät ja läuft. Auch wenn ich den nächsten Satz erst einmal im Kopf formuliere, kann ich zwar die Sprechpause machen, bin aber „gezwungen“, weiter zu diktieren.

Natürlich muss der eingesprochene Text korrigiert werden und eventuelle Spracherkennungsfehler ausgebessert werden. Dafür kann man aber beim Texte erstellen in der Gegend umher laufen und ist nicht an den Laptop bzw. einen Tisch gebunden. Interessant ist es vor allem auch dann, wenn man zum Beispiel für einen Text nebenbei Fotos macht.

Der Vorteil der Spracherkennung ist für mich also nicht, dass man schnelle Texte in den PC bringt, sondern die Änderung der Art und Weise wie man Texte erstellt.

Und so fällt mein Fazit nach über einem Jahr Nutzung sehr positiv aus: Absolut empfehlenswert!

Welche Version ist die richtige? Home oder Premium?

Einen Überblick über die verschiedenen Versionen gibt die Feature Matrix.

Das kann Premium mehr:

Sprachbedienung von Excel und Powerpoint
Spracherkennung von Aufnahmen, z. B. mir einem Diktiergerät
Im-/Export von persönlichen Vokabularlisten
Eigene Kommandos festlegen

Für Aufnahmen unterwegs ist ein richtiges Diktiergerät natürlich am Besten. Bei der Version Premium 13 Mobile ist gleich ein Philips Digital Voice Tracer 4100 mit dabei.

Hier kannst Du die Software bestellen:

Home Version

Die Basisversion

Zum Angebot auf Amazon

Premium Version

Die Version mit erweitertem Umfang