spracherkennung dragon naturallyspeaking titelbild

Endlich versteht mich jemand! Spracherkennung sei Dank :-)

Eingetragen bei: Mobiles Büro | 6

Heute ist Post gekommen, was Neues zum testen 🙂

Ich habe schon so oft gehört, dass die Spracherkennungssoftware Dragon NaturallySpeaking von Nuance gut sein soll und dass ich’s unbedingt ausprobieren soll. Es ist schon sehr verlockend, dem Computer einfach sagen zu können, was er tun soll bzw. was er schreiben soll. Ich habe vor, demnächst einiges zu schreiben und so nehme ich gerne die Hürde, etwas Neues zu lernen, um mir danach die Arbeit leichter zu gestalten.

Die Software liegt schon in einem Preissegment, wo man das Geld nicht einfach so ausgibt, um’s einfach mal auszuprobieren, sondern wo man Kosten und Nutzen schon deutlich abwägt. Einen unabhängigen und ausgiebigen Testbericht konnte ich leider nicht wirklich finden, was jetzt hier nachgeholt wird.

Spracherkennung Dragon NaturallySpeaking 13 – Testbericht

Was wirst Du in diesem Testbericht lesen?

Ich werde die Software auf Herz und Nieren überprüfen und mir selbst und Euch die Fragen beantworten:

  • Wie gut ist die Erkennungsrate?
  • Wie lange braucht man für’s Training?
  • Muss ich meine Sprache in eine „Diktiersprache“ ändern oder kann ich einfach so drauf los reden?
  • Bewährt sich der Einsatz im Alltag?
  • Wie viel muss ich von Hand ausbessern?

Dazu werde ich Euch auch die Soundfiles und die original erkannten Texte zur Verfügung stellen.

Testobjekt

Dragon NaturallySpeaking Premium, Version 13

Die Software wurde mir freundlicherweise von Nuance für diesen Testbericht zur Verfügung gestellt.

Testumgebung

 Mein SystemMindestanforderungen
Laptop: Samsung Series 5 Ultra NP530U3C
BetriebssystemWindows 7 Home Premium (64-Bit), SP1
Arbeitsspeicher6 GB> 2GB (32-Bit-Systeme
> 4GB (64-Bit-Systeme)
ProzessorIntel® Core i5-3317U CPU @1,70GHz
(= Quad-Core)
Intel® Dual Core mit 2,2 GHz oder äquivalenter AMD-Prozessor.
Prozessor-Cache2 MB L2 Cache empfohlen (Mindestens 512 KB)
Freier Festplattenspeicher> 30 GB4 GB

Schon recht ordentliche Anforderungen. Ich habe die Hoffnung, dass mein Laptop den Unterschied in der Prozessorgeschwindigkeit durch die zwei zusätzlichen Kerne wett macht.


Also los geht’s!

Beim Auspacken kommt folgender Packungsinhalt an Tageslicht:

  • Installations-DVD
  • Schnellstartanleitung
  • Headset mit Adapter

Headset – erster Eindruck

Negativ:

  • Das Headset sitzt auf meinem Dickschädel recht fest, die Bügel werden schon deutlich nach außen gedrückt und dadurch drücken die Ohrmuscheln auf den Kiefer. Da bin ich mal auf ein längeres Tragen gespannt…

Positiv:

  • Dickes Audio-Kabel (Länge ca. 2m), ist dadurch weniger anfällig für Kabelbrüche.
  • Mitgelieferter Adapter: Da mein Laptop nur eine Audio-Buchse hat, die gleichzeitig für Kopfhörer und Mikrofon da ist (wie bei einem Smartphone), brauche ich diesen Adapter unbedingt. Danke, dass ihr hier nicht an einem Cent-Artikel gespart habt!
  • Klangqualität: Deutlich und klar, realistische Wiedergabe der Stimme
Selber reinhören: Die erste Aufnahme (mit Tipps zur Mikrofonpositionierung)
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
Headset_erste_Aufnahme.mp3 (645KB)

Installation

Zur Installation wird natürlich ein DVD-Laufwerk benötigt, was mein Laptop nicht hat. Also mal das externe Laufwerk aus dem Schrank ausgegraben, angeschlossen, DVD eingelegt, Installation gestartet, und Kaffee gemacht. Ok, Zeit für Frühstück. Nach ca. 30min ist die Installation bei meinem Rechner fertig.

Erster Start

Produktaktivierung geht kurz und schmerzlos.

Dann wird mein Benutzerprofil angelegt. Dazu muss ich einen Text vorlesen:

Text zum Vorlesen - Mikrofon einstellen

Interessanterweise verändert Dragon die Windows-Audio-Einstellungen. Die zuvor gewählte Pegeleinstellung Mikro = 75%, Verstärkung = +10dB wird auf 100% und 0dB gesetzt. Dem entsprechend schlecht ist die aufgenommene Audioqualität:

Selber reinhören: Text zur Einstellung des Mikrofons
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
03_einstellung_mikro_pass.mp3 (556KB)

Die ersten beiden Versuche scheitern daher, der dritte gelingt. Eine letzte Frage noch und Dragon ist für mich bereit! 🙂 (ca. 10 Min.)

Lernprogramm

Im Lernprogramm wird man an die Spracheingabe herangeführt. Ich habe es erst mal komplett durchgemacht und ca. 20 min dafür gebraucht.

Also: Satzzeichen diktieren! Ob ich die Navigationsmöglichkeiten wie z.B. „Klick auf senden“, um auf die Schaltfläche „senden“ zu klicken wirklich nutzen werde, wird sich herausstellen.

Na dann: Erster Versuch

Ich versuche mal, einen Text zu diktieren.

Irgendwas passt jedoch nicht. Wenn ich etwas spreche, hinkt mein Rechner ständig hinterher, ich muss ihm richtig Zeit lassen, bis er die Worte erkannt hat. Auch darf ich nicht zu viele Worte auf einmal sprechen, sondern muss in einer ichdiktiereeinemErstklässleretwas-Geschwindigkeit reden. Tippen geht da wesentlich schneller…

Was ist los? Tja, die Systemanforderungen: Ich bräuchte einen schnelleren Rechner! Ich bin kurz davor, den Test abzubrechen…


Update: 4 Monate später

OK, eine einfach „auspacken und loslegen“-Lösung ist die Software nicht, man muss sich die Zeit nehmen, sich richtig damit auseinanderzusetzen.

Bei mir lagen die Prioritäten der letzten Wochen einfach anders. Der Winter war im Anmarsch und wir wollten nicht unter einer dicken Schneedecke sondern lieber in der Sonne in Spanien überwintern. Dazu wollte erst die Solaranlage auf unserem Anhänger installiert werden. Ohne Strom für’s Wohnmobil auch kein Strom für den Laptop. Und damit auch kein Strom für den Test einer Spracherkennungssoftware. Das Redesign der Website hat auch noch einiges an Zeit beansprucht. Ohne Website kein Platz für den Testbericht…

Jetzt geht’s aber weiter.

Ich habe mir vorgenommen, das nächste Ebook zu diktieren!

Was mir beim ersten Test aufgefallen ist: Mein Rechner hat nicht genügend Leistung für die Software.

Darüber habe ich mir ehrlich gesagt zuvor keine Gedanken gemacht. Da ich mit meinem Laptop auch problemlos Videos schneide, bin ich nicht davon ausgegangen, irgendwo an Leistungsengpässe zu kommen. Falsch gedacht, Spracherkennung ist sehr ressourcenhungrig. Die 4 * 1,7GHz reichen da nicht aus, auf Rückfrage bei Nuance kam auch die Antwort, dass die 2,2GHz auf einem Dualcore unbedingt notwendig sind. Auch ein Quadcore braucht mindestens 2,2GHz Prozessortakt

Daher muss ich den Test etwas beschränken. Ich werde die Texte aufnehmen und dann nicht in Echtzeit sondern im Nachhinein von Dragon NaturallySpeaking 13 erkennen lassen (übrigens einer der Unterschiede zwischen Premium- und Home-Version). Ich möchte schon „naturally speaking“ und nicht nach jedem halben Satz warten, bis mein Rechner hinterherhinkt…

Zum weiteren Kennenlernen habe ich einen Probetext aufgesprochen, den die Software jetzt umwandeln soll.

Dazu wird erstmal eine neue Diktierquelle angelegt:

Rechtsklick auf das Dragon-Symbol in der Taskleiste:

Screenshot diktierquellen verwalten

Dann „Neue Diktierquelle hinzufügen“, „Digitale Audiorekorder“ auswählen und im Dialog immer weiter gehen. Bei der Konfiguration des Rekorders stehen in der Hilfe die Einstellungen, die bei den Aufnahmen verwendet werden sollen:

  • 22kHz
  • .WAV
  • ohne Hintergrundgeräuschunterdrückung

Nur zwecks Interesse habe ich mal die verlinkte „Hardware-Kompatibilitätsliste“ aufgerufen: http://support.nuance.com/compatibility/

Gut, wenn man Englisch kann… Für meine Soundkarte gibt es folgenden Hinweis:

Screenshot Hinweise zu Realtek Soundkarten

Auf Deutsch übersetzt und zusammengefasst:
Meine integrierte Soundkarte (wie bei den meisten Laptops) hat eine zu geringe Audioqualität. Die Mikrofonverstärkung nach oben zu regeln macht’s nicht besser.

Da kommt der Unterschied zwischen dem Erkennungsalgorithmus zwischen einer Software und dem menschlichen Hirn… Das Hirn kann auch bei schlechterer Qualität noch einiges erkennen.

Aufnahmegerät: Eine Alternative muss her

Na gut, hier die Liste, was wir so an Aufnahmegeräten dabei haben…

  • LG GTab
  • Samsung Galaxy S2
  • Apple iPhone 4
  • Zoom H2N
  • Laptop Wendy
  • Laptop Michi

Dann gehen wir die Listen mal durch, was passen könnte

Eingebaute Soundkarten
Die Soundkarte von Wendy ist zwar nicht aufgeführt, allerdings auch nicht gerade vielversprechend. Damit sind die Laptops raus.

Recorder
Das Zoom ist nicht dabei… hat aber eine Topqualität. Ist einen Versuch wert.

Smartphones
Das Samsung Galaxy S2 und das iPhone 4 sind nicht in der Liste. Halte ich auch nicht wirklich vielversprechend.

PDAs
Wenn man ein Tablet als PDA bezeichnen würde… Das LG ist nicht dabei.

Ja, das ist durchaus ernüchternd. Laut Nuance-Website ist das Diktieren auch schon mit den eingebauten Mikrofonen in neueren Laptops möglich. Bei den Systemanforderungen steht nur „Soundkarte für 16-Bit-Aufzeichnung“. Dass da jetzt das mitgelieferte Mikrofon in Kombination mit der Soundkarte keine ausreichende Qualität liefert, ärgert mich schon…

Na ja, ich probiere trotzdem mal die folgenden Varianten aus:

  • Laptop mit von Nuance mitgeliefertem Headset
  • Tablet mit von Nuance mitgeliefertem Headset
  • Zoom H2N

Ich gehe davon aus, dass es mit dem Zoom klappen sollte. Ist zwar etwas oversized zum Diktieren, die Aufnahmequalität ist allerdings excellent.

Ich klicke weiter und schließe die Konfiguration ab und darf wieder die Spracherkennungssoftware trainieren lassen.

Lerntext einsprechen

Screenshot Lerntext

Das ist durchaus umfangreich. Ich habe für das erste Märchen („Der Hase und der Igel“) ca. 8min gebraucht und die vielen Anführungszeichen der direkten Rede haben mich fast wahnsinnig gemacht… Jetzt ist das Märchen auf den H2N eingesprochen, und das WAV-File auf die Festplatte kopiert.

Anschließend kommt das Einlesen in Dragon NaturallySpeaking. (Anmerkung: NaturallySpeaking kann die vom Zoom gespeicherte Datei nicht direkt einlesen. Abhilfe schafft hier: Das File mit Audacity aufmachen und einfach nochmal speichern. Dann klappt’s.)

Screenshot Training

Nach 16 Minuten ein Lichtblick:

Screenshot Training fertig

Der Umweg ist erledigt. Jetzt geht’s endlich ans Eingemachte!


Probetext 1 umsetzen – mit H2N

Selber reinhören: Probetext 1 mit H2N
(Aufnahme mit Zoom H2N: 44100Hz, 32bit, stereo; WAV)
1_Probetext_1_H2N.mp3 (1,65MB)

Rechte Maustaste auf das Symbol in der Taskleiste – Extras – Aufnahme umsetzen:

Auswahl Aufnahme umsetzen

Dann die Optionen auswählen bzw. eingestellt lassen:

Optionen der Umsetzung

Datei auswählen und auf „umsetzen“ klicken.

…es tut sich was…

…der eingesprochene Test erscheint Stück für Stück…

…nach 1 Minute ändert sich mein Gemütszustand:

Plötzlich bin ich entzückt :-)! Im Dragonpad steht mein diktierter Text!

Wie hoch ist die Erkennungsrate?

Dazu vergleiche ich den Originaltext mit dem erkannten Text und markiere die Fehler:

Erkannter Text, aufgenommen mit H2N

Folgende Fehler habe ich selber diktiert:

gut wenn ja, das Komma habe ich vergessen
daher rede ich man daher rede ich mal über Hier wollte ich mich selbst verbessern
Hard und Software Hinter Hard hätte ich den Bindestrich diktieren müssen
testen 🙂. Hier will ich eigentlich das zwinkernde Smiley haben

Folgende Fehler kommen von der Spracherkennung:

Person zwei. Fehler
Oder ist das Schicksal? schwer zu erkennen
Gegenständen Systemen schwer zu erkennen
die von Tonalität Fehler
Wenn die Fehler – und zwar ein ziemlich böser 😉

Fehler, die nicht gewertet werden:

Wenn ich mich was tja, da war ein Versprecher drin, daher schwer zu erkennen
bedient Freundlichkeit deutsches Wort für „Usability“ gesucht! Benutzerfreundlichkeit wäre besser…

Fazit erster Versuch:
Maschine: 3 Fehler auf 221 Wörter (Erkennungsrate 98,6%) Mensch: 6 Fehler auf 221 Wörter (Fehlerrate 2,7%) Die Änderungen speichere ich im DragonPad noch nicht und verbessere den Text auch nicht. Ich habe erstmal was anderes vor:

Probetext 1 umsetzen – Laptop mit Nuance-Headset

Selber reinhören: Probetext 1 mit Laptop und Headset
(Aufnahme mit Audacity: 44100Hz, 32bit, mono; MP3: 128kbit/s fest)
2_Probetext_1_laptop.mp3 (1,55MB)

Erkannter Text, aufgenommen mit Laptop

Auch das kann sich sehen lassen. Ich habe mal darauf verzichtet, das Audiofile komplett durchzugehen. Das Lernprogramm wurde ja auch mit einer Aufnahme vom H2N durchgeführt.

Probetext 1 umsetzen – Tablet mit Nuance-Headset

Selber reinhören: Probetext 1 mit Tablet und Headset
(Aufnahme mit Audio Evolution Mobile: 44100Hz, 16bit, mono; WAV)
3_Probetext_1_Tablet.mp3 (1,59MB)

Erkannter Text, aufgenommen mit Tablet

Ebenfalls relativ gut, auch hier bin ich das Audiofile nicht nochmal komplett durchgegangen.


Zwischenfazit

  • Spracherkennung mit Dragon NaturallySpeaking funktioniert!
  • Die höhere Erkennungsrate bei der H2N-Aufnahme erkläre ich mir damit, dass das Lernprogramm eben mit diesem Mikro durchgeführt wurde. Die Audioqualität spielt mit Sicherheit auch eine große Rolle.
  • Trotz den nicht optimalen Bedingungen für Laptop und Tablet sind auch hier die Erkennungsraten hoch.
  • Das Headset ist immer noch nicht bequem
  • Ab sofort wird mehr diktiert als geschrieben 🙂

 

Weiter geht’s!

Text korrigieren

Dazu lasse ich wieder die Aufnahme vom H2N in Text umwandeln und starte mit den Korrekturen:

Screenshot Korrekturen

Für die Korrektur werden auch gleich Vorschläge angezeigt. Die könnten auch ganz einfach per Sprachbefehl übernommen werden:

Screenshot Korrekturvorschläge

Benutzerprofil aktualisieren und Dragon schließen

Schluss für heute. Beim Schließen können die neuen Erkenntnisse über das eigene Benutzerprofil gespeichert werden. Das dauert zwar ca. 15 Minuten, ich gehe allerdings davon aus, dass das mir beim nächsten Text zu Gute kommt.

Screenshot Genauigkeitsoptimierung

Da fällt mir Tipp wieder ein, den ich mal in einem Forum gelesen habe: Neustarts sind immer wieder mal sinnvoll, damit das neu gelernte auch geladen wird.


Ist die Spracherkennung mit Dragon NaturallySpeaking empfehlenswert?

Nach aktuellem Stand ist es sehr vielversprechend. Mein Testfokus lag klar auf Texterkennung. Für die Steuerung bzw. Bedienung des Computers mit der Stimme ist zuerst ein Rechner mit den entsprechenden Systemvoraussetzungen notwendig. Gaaanz wichtig: Eine hervorragende Audioqualität sollte gewährleistet sein! Eine endgültige Beurteilung mit Beispieltexten kommt bald.


Update: 12 Monate später

Spracherkennung mit Dragon Naturally Speaking ist fest in meinen Arbeitsprozess eingebunden:

  • So gut wie alle neuen Artikel habe ich diktiert
  • Das Ebook Mobiles Internet habe ich komplett diktiert
  • Längere E-Mails diktiere ich auch ganz gerne (z.b. während Autofahrten)

Für mich ist folgende Vorgehensweise beim Erstellen von Texten sehr hilfreich:

  • Brainstorming
  • Struktur erstellen
  • Diktieren, Spracherkennung
  • Text überarbeiten
  • Feinschliff, Formatierung, Layout

Mein persönliches Abschluss-Fazit

Auch wenn das Diktieren eventuell ein bisschen länger braucht als das Schreiben, bleibe ich konzentriert und am Stück bei der Sache, da das Aufnahmegerät ja läuft. Auch wenn ich den nächsten Satz erst einmal im Kopf formuliere, kann ich zwar die Sprechpause machen, bin aber „gezwungen“, weiter zu diktieren.

Natürlich muss der eingesprochene Text korrigiert werden und eventuelle Spracherkennungsfehler ausgebessert werden. Dafür kann man aber beim Texte erstellen in der Gegend umher laufen und ist nicht an den Laptop bzw. einen Tisch gebunden. Interessant ist es vor allem auch dann, wenn man zum Beispiel für einen Text nebenbei Fotos macht.

Der Vorteil der Spracherkennung ist für mich also nicht, dass man schnelle Texte in den PC bringt, sondern die Änderung der Art und Weise wie man Texte erstellt.

Und so fällt mein Fazit nach über einem Jahr Nutzung sehr positiv aus: Absolut empfehlenswert!


Welche Version ist die richtige? Home oder Premium?

Einen Überblick über die verschiedenen Versionen gibt die Feature Matrix.

Das kann Premium mehr:

  • Sprachbedienung von Excel und Powerpoint
  • Spracherkennung von Aufnahmen, z. B. mir einem Diktiergerät
  • Im-/Export von persönlichen Vokabularlisten
  • Eigene Kommandos festlegen

Für Aufnahmen unterwegs ist ein richtiges Diktiergerät natürlich am Besten. Bei der Version Premium 13 Mobile ist gleich ein Philips Digital Voice Tracer 4100* mit dabei.

Hier kannst Du die Software bestellen:

 

Premium Version

Die Version mit erweitertem Umfang

Jetzt auf Amazon bestellen >>
Direkt bei Nuance bestellen >>

 

Premium Mobile Version

Mit Diktiergerät für Aufnahmen unterwegs

Jetzt auf Amazon bestellen >>
Direkt bei Nuance bestellen >>

 

6 Responses

  1. Max

    Hallo Ihr Beiden

    ich habe es mal vor 2 Jahren mit Dragon NaturallySpeaking 11 versucht. Mir war es damals aber noch zu langsam und die Erkennungsrate was auch mies. Aber was ich jetzt so von die lese könne ich es ja mal wieder versuchen.

    Sonnige Grüße
    Max

  2. Michi

    Hi Max!

    ja, ich hatte auch mal eine vorherige Version in der Hand. Der Unterschied ist schon deutlich, die Erkennungsrate wirklich recht hoch.
    Ich glaube, die größte Herausforderung ist jetzt die Umstellung der eigenen Arbeitsgewohnheit vom „Tippen“ in „Diktieren“ :-). Ich werde nach ein paar Wochen berichten…

    Grüße!

  3. Ronald

    Schade, dass es mit dem Rechner nicht so funktioniert, wäre an dem Ergebnis interessiert. Meine Erfahrung ist ähnlich wie die von Max. Im Ergebnis erreicht man zwar eine gute Erkennungsrate, doch sind auch wenige Fehler zu viel. Wenn man im Gedankenfluß ist, stört es, immer wieder für Korrekturen rausgerissen zu werden. Man könnte die zwar auch später machen, aber da das Programm kleine nahe liegende Fehler macht (wem statt wem oder so), ist das oft sehr mühsam. Am Ende bin ich dann tippend doch irgendwie schneller.

    Grüße am Sonnenfinsternistag.

  4. Michi

    Hi Ronald! Ja, hätte ich auch gerne ausprobiert. Das mit dem Gedankenfluss ist der Vorteil vom Diktiergerät: Das Diktieren ist ablenkungsfrei. Grüße!

  5. Steffi Mania

    Hi Michael!

    Ich probiere das Programm auch gerade aus, wegen einer Sehnenscheideentzündung in der rechten Hand. Bin eigentlich ganz zufrieden. Der Computer versteht mich und macht weniger Fehler als ich beim Tippen. Diktieren ist aber nichts für mich. Ich bin eher der stille Schreiber. Irgendwie bekomme ich schreibend meine Gedanken besser zu „Papier“. Aber ich habe ja noch ein paar Wochen eine kaputte Hand – vielleicht gewöhne ich mich ja noch an den Drachen.

    🙂

  6. Michi

    Hi Steffi!

    Ja, das Diktieren muss einem liegen. Gerade am Anfang ist es eine größere Umstellung. Inzwischen gehört das Diktieren bei mir jedoch fest zum Erstellen von längeren Texten dazu. Bald kommt noch mein Abschluss-Fazit zum Testbericht.

    LG und gute Besserung!

Hinterlasse einen Kommentar