aboutsummaryrefslogtreecommitdiff
path: root/test/data/TitlecaseTest
blob: 718bec25ac5c558cd0160776b2ed41849292ab50 (plain) (blame)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
# Empty input
;;

# Short input
a;A;

# If CF_ẞ gets passed for whatever reason… don’t turn into ẞ
ß;Ss;ẞ

# Latin alphabet
LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT.;Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit.;
lorem ipsum dolor sit amet, consectetur adipiscing elit.;Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit.;

# Random punctuation and numbers
18years-old;18Years-Old;
COMPLEX-LANGUAGE AND -SCRIPT;Complex-Language And -Script;
complex-language and -script;Complex-Language And -Script;

# Greek alphabet; handle sigma properly
ΤΟ ΓΡΆΜΜΑ ΣΊΓΜΑ ΈΧΕΙ ΔΎΟ ΠΕΖΟΎΣ ΤΎΠΟΥΣ;Το Γράμμα Σίγμα Έχει Δύο Πεζούς Τύπους;
το γράμμα σίγμα έχει δύο πεζούς τύπους;Το Γράμμα Σίγμα Έχει Δύο Πεζούς Τύπους;

# Cyrillic alphabet
СЛАВА УКРАЇНІ ПРОТИ РОСІЙСЬКОЇ АГРЕСІЇ!;Слава Україні Проти Російської Агресії!;
слава україні проти російської агресії!;Слава Україні Проти Російської Агресії!;

# In lithuanian we need to retain the dot above ‘i’ and ‘j’ when there’s
# an accent above the uppercased variant.  Also test with both
# single-codepoint variants (i.e. U+00CC LATIN CAPITAL I WITH GRAVE) and
# variants that use combining-characters.
i̇̀;İ̀;
i̇̀;Ì;LT
RÀSTI, MÈSTI, KÌLO;Ràsti, Mèsti, Kìlo;
RÀSTI, MÈSTI, KÌLO;Ràsti, Mèsti, Ki̇̀lo;LT

# Croatian has 3 cases
LJUDEVIT GAJ;Ljudevit Gaj;
ljudevit gaj;Ljudevit Gaj;

# Dutch IJ needs special handling
ijsberg en onderzeeër in de ijssel;Ijsberg En Onderzeeër In De Ijssel;
ijsberg en onderzeeër in de ijssel;IJsberg En Onderzeeër In De IJssel;NL

# Uppercase ‘i’ to ‘İ’ in Azeri/Turkish
istanbul’luyum;Istanbul’luyum;
istanbul’luyum;İstanbul’luyum;AZ

# Uncased language
안녕하세요, 월드!;안녕하세요, 월드!;