Software-Tipps

Textformate


Unterstützte Textformate

Im Gegensatz zu Binärdateien1 enthalten Textdateien Buchstaben, Sonderzeichen und Steuerzeichen. Wie die Zeichen in der Textdatei codiert sind, legt die sogenannte Zeichencodierung über einen Zeichensatz fest. Häufige Zeichensätze sind beispielsweise ASCII, ISO-8895, Windows-1252, EBCDIC oder UTF-8, die weltweit verbreitetste Kodierung für Unicode-Zeichen. Textdateien können mit normalen Texteditoren gelesen werden. Diese Texteditoren stehen in allen Betriebssystemen zur Verfügung.

Auch wenn eine Datei mit einem Textverarbeitungsprogramm erstellt wird, ist sie nicht zwangsläufig eine Textdatei. PDF, PostScript oder DVI können auch Binärdateien sein. Wird ein Text über einen Scanner eingelesen, liegen diese Informationen meist als Bilddatei vor, sofern sie nicht mittels Texterkennungssoftware OCR in eine entsprechende Textdatei konvertiert werden.

Die wichtigsten bzw. häufigsten Textformate

  • Einfacher unformatierter Text (Plain Text)
    • PlainEr enthält je nach Zeichensatz verschiedene Buchstaben (natürlichsprachliche Texte), Sonderzeichen wie Umlaute, Symbole oder Buchstaben aus anderen Alphabeten und einfache Formatierungszeichen wie z.B. Zeichen für “Neue Zeile”2 oder das Dateiende. Spezielle Formatierungen wie Schriftarten, Schriftgrößen und Schriftauszeichungen wie beispielsweise Fett oder Unterstreichung usw. sind nicht im einfachen Textformat enthalten. Für den plain Text können unterschiedliche Zeichensätze wie z.B. ASCII, UTF-8 oder Latin-1 verwendet werden.

  • RTF - Rich Text Format - Dateiendung .rtf
    • RTFDas RTF ist ein Textformat mit speziellen Zeichenformatierungen, wie sie in der Textverarbeitung bekannt sind. Hierzu gehören z.B. Fettdruck, Schriftart, Unterstreichung, Kapitälchen, Versalien und so weiter. RTF kann auf verschiedenen Systemen (Windows, Apple, UNIX, …) eingesetzt werden und eignet sich daher sehr gut für den Austausch von Texten. Die RTF Versionen sind aufwärtskompatibel. Es kann jedes beliebige Textverarbeitungsprogramm genutzt werden, um diese Textdokumente zu öffnen.
  • HTML - Dateiendung .html, .htm
    • HTMLHTML ist ein wichtiges Format für Internetsysteme. Mit HTML, der Hypertext Markup Language, können Sie Dokumente für das Internet erstellen. Diese Dokumente werden von Browsern dargestellt. 1989 von Tim Berners-Lee vorgeschlagen und 1992 erstmals veröffentlicht, ist HTML mittlerweile in der erweiterten Version HTML5 verfügbar. HTML ist eine Auszeichnungssprache, die den Text strukturiert mit beispielsweise Überschriften, Listen und Absätzen usw. beschreibt. Die zugehörigen Standards sind ISO/IEC 15445 und W3C HTML 5.
  • Microsoft Word Dateiformat - .doc, .docx
    • DOC.doc und .docx sind Microsoft Word Dateiformate, wobei das .docx Format ein XML-basiertes Format ist und das derzeitige Standardformat von Microsoft Word darstellt. Beide Dateiformate können in anderen Softwareprogrammen wie z.B. OpenOffice, LibreOffice, Google Docs oder Word Viewer geöffnet werden. Das neuere Format .docx kann für Inhalte wie Text, Hyperlinks und Bilder oder andere Medien genutzt werden. Ältere Versionen von Microsoft Word können das .docx Format teilweise nicht öffnen bzw. lesen.
  • OpenDocument - Dateiendung: .odt, .ott
    • ODTOpenDocument ist ein genormter quelloffener Standard (ISO/ IEC 26300-1:2015) der von Sun Microsystems entwickelt wurde und unter der Federführung von OASIS als Standard veröffentlicht wird. Das Format ist XML-basiert und die Dokumente können durch weitere XML-Sprachen ergänzt werden. Zu den Programmen die das Format als natives Dateiformat unterstützen zählen Apache OpenOffice und LibreOffice.
  • Uniform Office Format - Unified Office Format - Dateiendung *.uot
    • UOFUniform Office Format (UOF) ist ein offener Standard, der in China entwickelt wurde. Das Format basiert auf XML und ähnelt damit dem OpenDocument Format. OpenOffice und LibreOffice können das Dateiformat ab der jeweiligen Programmversion 3 lesen und speichern.

Unser Tipp

Fragen Sie den Softwareanbieter nach den Dateiformaten, die die Software abbilden kann. Prüfen Sie, ob die Dateiformate und die verwendeten Zeichencodierungen mit Ihrer vorhandenen Software bzw. Ihrem System kompatibel sind. Bei einer Dateiübertragung zwischen Systemen übernimmt in der Regel das Übertragungsprogramm auch die notwendige Konvertierung der Textdatei.

Neben den Textformaten gibt es strukturierte Datenformate. Diese werden im folgenden Abschnitt beschrieben.


1 Wie alle Dateien enthalten Binärdateien nur Nullen und Einsen, die aber nicht als Buchstaben oder Sonderzeichen interpretiert werden können.
2 für einen Zeilenumbruch
Abkürzungen:
ASCII: American Standard Code for Information Interchange
EBCDIC: Extended Binary Coded Decimal Interchange Code
UTF-8: Unicode Transformation Format 8
PDF: Portable Document Format
DVI: Digital Visual Interface
OCR: Optical Character Recognition
HTML: Hypertext Markup Language
ISO: Internationale Organisation für Normung
IEC: International Electrotechnical Commission
W3C: World Wide Web Consortium
.docx: Document Xml
XML: Extended Markup Language