1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
# Empty input
;;
# Latin alphabet
LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT.;lorem ipsum dolor sit amet, consectetur adipiscing elit.;
# Greek alphabet; handle sigma properly
Σ;ς;
ΤΟ ΓΡΆΜΜΑ ΣΊΓΜΑ ΈΧΕΙ ΔΎΟ ΠΕΖΟΎΣ ΤΎΠΟΥΣ;το γράμμα σίγμα έχει δύο πεζούς τύπους;
# Cyrillic alphabet
СЛАВА УКРАЇНІ ПРОТИ РОСІЙСЬКОЇ АГРЕСІЇ!;слава україні проти російської агресії!;
# In lithuanian we need to retain the dot above ‘i’ and ‘j’ when there’s
# an accent above the uppercased variant. Also test with both
# single-codepoint variants (i.e. U+00CC LATIN CAPITAL I WITH GRAVE) and
# variants that use combining-characters.
Į̃;į̃;
Į̃;į̇̃;LT
J́;j́;
J́;j̇́;LT
Į̃J́;į̃j́;
Į̃J́;į̇̃j̇́;LT
RÀSTI, MÈSTI, KÌLO;ràsti, mèsti, kìlo;
RÀSTI, MÈSTI, KÌLO;ràsti, mèsti, ki̇̀lo;LT
RÀSTI, MÈSTI, KÌLO;ràsti, mèsti, kìlo;
RÀSTI, MÈSTI, KÌLO;ràsti, mèsti, ki̇̀lo;LT
# Croatian has 3 cases
LJUDEVIT GAJ;ljudevit gaj;
Ljudevit Gaj;ljudevit gaj;
# Azeri/Turkish ‘ı’ and ‘i’ are different letters
I;i;
I;ı;AZ
# Add U+0307 COMBINING DOT ABOVE after ‘i’ when lowercasing ‘İ’ in
# non-Azeri and -Turkish locales
İSTANBUL’LUYUM;i̇stanbul’luyum;
İSTANBUL’LUYUM;istanbul’luyum;AZ
# Uncased language
안녕하세요, 월드!;안녕하세요, 월드!;
|