aboutsummaryrefslogtreecommitdiff
path: root/test/data/TitlecaseTest
blob: 24256a5962faa02b9d17d3987fc42d6a43560ecb (plain) (blame)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
# Empty input
;;

# Short input
a;A;

# If CF_ẞ gets passed for whatever reason… don’t turn into ẞ
ß;Ss;ẞ

# Latin alphabet
LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT.;Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit.;
lorem ipsum dolor sit amet, consectetur adipiscing elit.;Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit.;

# Random punctuation and numbers
COMPLEX-LANGUAGE AND -SCRIPT;Complex-Language And -Script;
complex-language and -script;Complex-Language And -Script;

# Greek alphabet; handle sigma properly
ΤΟ ΓΡΆΜΜΑ ΣΊΓΜΑ ΈΧΕΙ ΔΎΟ ΠΕΖΟΎΣ ΤΎΠΟΥΣ;Το Γράμμα Σίγμα Έχει Δύο Πεζούς Τύπους;
το γράμμα σίγμα έχει δύο πεζούς τύπους;Το Γράμμα Σίγμα Έχει Δύο Πεζούς Τύπους;

# Cyrillic alphabet
СЛАВА УКРАЇНІ ПРОТИ РОСІЙСЬКОЇ АГРЕСІЇ!;Слава Україні Проти Російської Агресії!;
слава україні проти російської агресії!;Слава Україні Проти Російської Агресії!;

# In lithuanian we need to retain the dot above ‘i’ and ‘j’ when there’s an
# accent above the uppercased variant.  Also test with both single-codepoint
# variants (i.e. U+00CC LATIN CAPITAL I WITH GRAVE) and variants that use
# combining-characters.
i̇̀;İ̀;
i̇̀;Ì;LT
RÀSTI, MÈSTI, KÌLO;Ràsti, Mèsti, Kìlo;
RÀSTI, MÈSTI, KÌLO;Ràsti, Mèsti, Ki̇̀lo;LT

# Croatian has 3 cases
LJUDEVIT GAJ;Ljudevit Gaj;
ljudevit gaj;Ljudevit Gaj;

# Dutch IJ needs special handling
ijsberg en onderzeeër in de ijssel;Ijsberg En Onderzeeër In De Ijssel;
ijsberg en onderzeeër in de ijssel;IJsberg En Onderzeeër In De IJssel;NL

# Uppercase ‘i’ to ‘İ’ in Azeri/Turkish
istanbul’luyum;Istanbul’luyum;
istanbul’luyum;İstanbul’luyum;AZ

# Uncased language
안녕하세요, 월드!;안녕하세요, 월드!;