@@ -58,6 +58,11 @@ def strip_originals(tokens: List[Tok]) -> List[Tok]:
58
58
return tokens
59
59
60
60
61
+ def get_text_and_norm (orig : str ) -> Tuple [str , str ]:
62
+ toklist = list (t .tokenize (orig ))
63
+ return t .text_from_tokens (toklist ), t .normalized_text_from_tokens (toklist )
64
+
65
+
61
66
def test_single_tokens () -> None :
62
67
63
68
TEST_CASES = [
@@ -2319,16 +2324,12 @@ def gen(s: Iterable[str]) -> Iterator[str]:
2319
2324
g = t .split_into_sentences ("Athugum [hvort [setningin sé rétt skilin]]." )
2320
2325
sents = list (g )
2321
2326
assert len (sents ) == 1
2322
- assert sents == [
2323
- "Athugum [ hvort [ setningin sé rétt skilin ] ] ."
2324
- ]
2327
+ assert sents == ["Athugum [ hvort [ setningin sé rétt skilin ] ] ." ]
2325
2328
2326
2329
g = t .split_into_sentences ("Þessi [ætti [líka að]] vera rétt skilin." )
2327
2330
sents = list (g )
2328
2331
assert len (sents ) == 1
2329
- assert sents == [
2330
- "Þessi [ ætti [ líka að ] ] vera rétt skilin ."
2331
- ]
2332
+ assert sents == ["Þessi [ ætti [ líka að ] ] vera rétt skilin ." ]
2332
2333
2333
2334
# g = t.split_into_sentences("Þessi á [[líka að]] vera rétt skilin.")
2334
2335
# sents = list(g)
@@ -2340,11 +2341,81 @@ def gen(s: Iterable[str]) -> Iterator[str]:
2340
2341
# ]
2341
2342
# Test onesentperline
2342
2343
2344
+ # Test whether indirect speech is split up
2345
+ g = t .split_into_sentences ("„Er einhver þarna?“ sagði konan." )
2346
+ sents = list (g )
2347
+ assert len (sents ) == 1
2348
+ assert sents == ["„ Er einhver þarna ? “ sagði konan ." ]
2349
+
2350
+ g = t .split_into_sentences ("„Er einhver þarna?“ Maðurinn þorði varla fram." )
2351
+ sents = list (g )
2352
+ assert len (sents ) == 2
2353
+ assert sents == ["„ Er einhver þarna ? “" , "Maðurinn þorði varla fram ." ]
2354
+
2355
+ g = t .split_into_sentences ("„Hún hló,“ sagði barnið." )
2356
+ sents = list (g )
2357
+ assert len (sents ) == 1
2358
+ assert sents == ["„ Hún hló , “ sagði barnið ." ]
2359
+
2360
+ # g = t.split_into_sentences("„Hvað meinarðu??“ sagði barnið.")
2361
+ # sents = list(g)
2362
+ # assert len(sents) == 1
2363
+ # assert sents == ["„ Hvað meinarðu ?? “ sagði barnið ."]
2364
+
2343
2365
2344
2366
def test_normalization () -> None :
2345
- toklist = list (t .tokenize ('Hann sagði: "Þú ert ágæt!".' ))
2346
- assert t .text_from_tokens (toklist ) == 'Hann sagði : " Þú ert ágæt ! " .'
2347
- assert t .normalized_text_from_tokens (toklist ) == "Hann sagði : „ Þú ert ágæt ! “ ."
2367
+ text , norm = get_text_and_norm ('Hann sagði: "Þú ert ágæt!".' )
2368
+
2369
+ assert text == 'Hann sagði : " Þú ert ágæt ! " .'
2370
+ assert norm == "Hann sagði : „ Þú ert ágæt ! “ ."
2371
+
2372
+ text , norm = get_text_and_norm ("Hún vinnur í fjármála-og efnahagsráðuneytinu." )
2373
+ assert text == "Hún vinnur í fjármála- og efnahagsráðuneytinu ."
2374
+ assert norm == "Hún vinnur í fjármála- og efnahagsráðuneytinu ."
2375
+
2376
+ text , norm = get_text_and_norm ("Þetta er tyrfið..." )
2377
+ assert text == "Þetta er tyrfið ..."
2378
+ assert norm == "Þetta er tyrfið …"
2379
+
2380
+ text , norm = get_text_and_norm ("Þetta er gaman.." )
2381
+ assert text == "Þetta er gaman .."
2382
+ assert norm == "Þetta er gaman ."
2383
+
2384
+ text , norm = get_text_and_norm ("Þetta er hvellur....." )
2385
+ assert text == "Þetta er hvellur ....."
2386
+ assert norm == "Þetta er hvellur …"
2387
+
2388
+ text , norm = get_text_and_norm ("Þetta er mergjað………" )
2389
+ assert text == "Þetta er mergjað ………"
2390
+ assert norm == "Þetta er mergjað …"
2391
+
2392
+ text , norm = get_text_and_norm ("Haldið var áfram [...] eftir langt hlé." )
2393
+ assert text == "Haldið var áfram [...] eftir langt hlé ."
2394
+ assert norm == "Haldið var áfram […] eftir langt hlé ."
2395
+
2396
+ text , norm = get_text_and_norm ("Þetta er tyrfið,, en við höldum áfram." )
2397
+ assert text == "Þetta er tyrfið ,, en við höldum áfram ."
2398
+ assert norm == "Þetta er tyrfið , en við höldum áfram ."
2399
+
2400
+ text , norm = get_text_and_norm ('Hinn svokallaði ,,Galileóhestur" hvarf.' )
2401
+ assert text == 'Hinn svokallaði ,, Galileóhestur " hvarf .'
2402
+ assert norm == "Hinn svokallaði „ Galileóhestur “ hvarf ."
2403
+
2404
+ text , norm = get_text_and_norm ("Mars - hin rauða pláneta - skín bjart í nótt." )
2405
+ assert text == "Mars - hin rauða pláneta - skín bjart í nótt ."
2406
+ assert norm == "Mars - hin rauða pláneta - skín bjart í nótt ."
2407
+
2408
+ text , norm = get_text_and_norm ("Mars – hin rauða pláneta – skín bjart í nótt." )
2409
+ assert text == "Mars – hin rauða pláneta – skín bjart í nótt ."
2410
+ assert norm == "Mars - hin rauða pláneta - skín bjart í nótt ."
2411
+
2412
+ text , norm = get_text_and_norm ("Mars — hin rauða pláneta — skín bjart í nótt." )
2413
+ assert text == "Mars — hin rauða pláneta — skín bjart í nótt ."
2414
+ assert norm == "Mars - hin rauða pláneta - skín bjart í nótt ."
2415
+
2416
+ text , norm = get_text_and_norm ("Hvernig gastu gert þetta???!!!!!" )
2417
+ assert text == "Hvernig gastu gert þetta ???!!!!!"
2418
+ assert norm == "Hvernig gastu gert þetta ?"
2348
2419
2349
2420
toklist = list (t .tokenize ('Hann sagði: ,,Þú ert ágæt!!??!".' ))
2350
2421
assert t .text_from_tokens (toklist ) == 'Hann sagði : ,, Þú ert ágæt !!??! " .'
0 commit comments