Character and string types/fr
│
Deutsch (de) │
English (en) │
español (es) │
français (fr) │
русский (ru) │
中文(中国大陆) (zh_CN) │
Free Pascal supportes plusieurs types de caractères et de chaîne de caractères. Il s'étendent du simple caractère ANSI aux chaînes Unicode et incluent aussi les types pointer. Les différence s'appliquent aussi aux encodages et au comptage de référence.
AnsiChar
Une variable de type AnsiChar, aussi mentionnée comme Char, a une taille d'exactement un octet et contient un caractère ANSI.
a |
Référence
WideChar
Une variable du type WideChar, aussi mentionnée commeUnicodeChar, est exactement d'une taille de 2 octets, et contient une partie des caractères Unicode dans l'encodage UTF-16. Note : il est impossible d'encodes tous les points de code Unicode dans 2 octets. En conséquence, 2 WideChars pourraient être nécessaires pour encoder un simple point de code.
a |
Références
- Documentation FPC sur les WideChar
- Information sur l'UTF-16 dans Wikipedia
- Documentation sur RTL UnicodeChar
Tableau de Char
Les premières implémentations de Pascal, utilisées avant 1978, ne supportaient pas le type chaîne (exception faite des constantes chaînes). La seule possibilité pour stocker des chaînes dans des variables consistaient à utiliser des tableaux de char. Cette approche a de nombreux inconvénients et n'est plus recommandée. C'est néanmoins toujours supporté pour assurer la compatibilité descendante avec l'ancien code.
Tableau de Char statique
type
TOldString4 = array[0..3] of char;
var
aOldString4: TOldString4;
begin
aOldString4[0] := 'a';
aOldString4[1] := 'b';
aOldString4[2] := 'c';
aOldString4[3] := 'd';
end;
Le tableau de char statique contient dorénavant:
a | b | c | d |
Tableau de Char dynamique
var
aOldString: Array of Char; // pas de dimension!!
begin
SetLength(aOldString, 5);
aOldString[0] := 'a';
aOldString[1] := 'b';
aOldString[2] := 'c';
aOldString[3] := 'd';
end;
Le tableau de char dynamique contient dorénavant:
a | b | c | d | #0 |
PChar
Une variable de type PChar est simplement un pointeur vers un type Char, mais permet des opérations supplémentaires. Les PChars peuvent être utilisé pour accéder à des chaînes C à zéro terminal, par exemple en interaction avec certaines API systèmes ou des logiciels tierce partie.
a | b | c | #0 |
^ |
Référence
PWideChar
Une variable de type PWideChar est un pointeur vers une variable WideChar.
a | b | c | #0 | #0 | |||
^ |
Référence
String
Le type String' peut faire référence à ShortString ou AnsiString, selon la bascule {$H}. Si la bascule est off ({$H-}) alors toute déclaration string va définir une ShortString. Sa taille sera de 255 caractères, si elle n'est pas spécifiée autrement. Si la bascule est on ({$H+}) string sans spécifier la taille va définir une AnsiString, sinon une ShortString avec une taille spécifiée. Dans le mode delphiunicode String est UnicodeString.
Référence
- Usage des String
- Fonctions sur les chaînes
- Référence sur l'unité 'strutils': Procédures et fonctions
ShortString
Les chaînes courtes ont une taille maximale de 255 caractères avec la page de code CP_ACP implicite. La longueur effective de la chaîne est conservée dans le caractère à l'index 0.
#3 | a | b | c |
Référence
AnsiString
Les Ansistrings ou les UTF8Strings sont des chaînes qui n'ont pas de limite de taille. Le comptage de référence s'applique à elle et il est garanti qu'elles soient à zéro terminal. En interne, une variable de type AnsiString est traitée comme un pointeur: le contenu réel de la chaîne se trouve dans le tas, la mémoire nécessaire à son contenu étant allouée.
a | b | c | #0 | ||||||||
RefCount | Length |
Référence
UnicodeString
Telles les AnsiStrings, UnicodeStrings sont sujette au comptage de référence, sont des tableau à zéro terminal, mais elles sont implémentées comme des tableaux de WideChars au lieu de Chars ordinaires.
a | b | c | #0 | #0 | |||||||||||
RefCount | Length |
Référence
UTF8String
Actuellement, le type UTF8String est un alias sur le type AnsiString. Il est destiné à contenir des chaînes encodées en UTF-8 (i.e. des données Unicode) allant de 1 à 4 octets par caractère. UTF8String est le type par défaut dans Lazarus et la LCL. UTF8String est le type de chaîne par défaut dans Lazarus et la LCL.
Référence
UTF16String
Le type UTF16String est un alias sur le type WideString. Dans l'unité LCL lclproc, c'est un alias sur UnicodeString.
Référence
WideString
Les variables du type WideString (utilisées pour représenter les chaînes de caractères Unicode dans les applications COM) ressemblent à celle du type UnicodeString, mais contrairement à elles, elles ne bénéficient pas du comptage de références. Dans Windows, elles sont allouées une fonction spéciale de Windows qui leur permet d'être utilisées dans OLE Automation.
Les WideStrings consistent en octets encodés UTF-16 comppatible COM sur les machines Windows (UCS2 sur Windows 2000) et elles sont encodées en UTF-16 pur sur Linux, Mac OS et iOS.
a | b | c | #0 | #0 | |||||||
Length |
Référence
PShortString
Une variable du type PShortString est un pointeur qui désigne le premier octet d'une variable de type ShortString (lequel définit la longueur de la ShortString).
#3 | a | b | c |
^ |
Référence
PAnsiString
Les variables de type PAnsiString sont des pointeurs sur des variables de type AnsiString. Néanmoins, contrairement aux variables de type PShortString, ils ne pointent pas sur le premier octet d'un en-tête mais sur le premier char de l'AnsiString.
a | b | c | #0 | ||||||||
RefCount | Length | ^ |
Référence
PUnicodeString
Les variables de type PUnicodeString sont des pointeurs vers les variables de type UnicodeString.
a | b | c | #0 | #0 | |||||||||||
RefCount | Length | ^ |
Référence
PWideString
Les variables du type PWideString sont des pointeurs. Elles pointent sur le premier caractère d'une variable de type WideString.
a | b | c | #0 | #0 | |||||||
Length | ^ |
Référence
Constantes String
Si vous utilisez des constantes an Anglais, vos chaînes fonctionnent de la même façon avec tous les types, sur toutes les plateformes et toutes les versions du compilateur. Les chaînes 'non anglaises' peuvent eêtre chargées depuis des chaînes de ressource ou depuis des fichiers. Si vous utilisez des chaînes non anglaises dans votre code, vous devriez lire ce qui suit.
There are various encodings for non English strings. By default Lazarus saves Pascal files as UTF-8 without BOM. UTF-8 supports the full Unicode range. That means all string constants are stored in UTF-8. Lazarus also supports to change the encoding of a file to other encoding, for example under Windows your local codepage. The Windows codepage is limited to your current language group.
String Type, UTF-8 Source | With or without {$codepage utf8} | FPC 2.6.5 and below | FPC 2.7.1 and above | FPC 2.7.1+ with UTF8 as default CodePage |
---|---|---|---|---|
AnAnsiString:='ãü'; | Without | Needs UTF8ToAnsi in RTL/WinAPI. Ok in LCL | Needs UTF8ToAnsi in RTL/WinAPI. Ok in LCL | Ok in RTL/W-WinAPI/LCL. Needs UTF8ToWinCP in A-WinAPI. |
AnAnsiString:='ãü'; | With | System cp ok in RTL/WinAPI. Needs SysToUTF8 in LCL | Ok in RTL/WinAPI/LCL. Mixing with other strings converts to system cp | Ok in RTL/W-WinAPI/LCL. Needs UTF8ToWinCP in A-WinAPI |
AnUnicodeString:='ãü'; | Without | Wrong everywhere | Wrong everywhere | Wrong everywhere |
AnUnicodeString:='ãü'; | With | System cp ok in RTL/WinAPI. Needs UTF8Encode in LCL | Ok in RTL/WinAPI/LCL. Mixing with other strings converts to system cp | Ok in RTL/W-WinAPI/LCL. Needs UTF8ToWinCP in A-WinAPI |
AnUTF8String:='ãü'; | Without | Same as AnsiString | Wrong everywhere | Wrong everywhere |
AnUTF8String:='ãü'; | With | Same as AnsiString | Ok in RTL/WinAPI/LCL. Mixing with other strings converts to system cp | Ok in RTL/W-WinAPI/LCL. Needs UTF8ToWinCP in A-WinAPI. |
- W-WinAPI = Windows API "W" functions, UTF-16
- A-WinAPI = Windows API non "W" functions, 8bit system code page
- System CP = The 8bit system code page of the OS. For example code page 1252.
const
c='ãü';
cstring: string = 'ãü'; // see AnAnsiString:='ãü';
var
s: string;
u: UnicodeString;
begin
s:=c; // same as s:='ãü';
s:=cstring; // does not change encoding
u:=c; // same as u:='ãü';
u:=cstring; // fpc 2.6.1: converts from system cp to UTF-16, fpc 2.7.1+: depends on encoding of cstring
end;