Skip to content

Commit 5266487

Browse files
committed
Trailing period added to abbreviations ending sentences; tests updated to reflect change
1 parent 62ccc51 commit 5266487

File tree

2 files changed

+10
-11
lines changed

2 files changed

+10
-11
lines changed

src/tokenizer/tokenizer.py

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1686,7 +1686,7 @@ def parse_phrases_1(token_stream):
16861686
if token.kind == TOK.WORD and next_token.txt == ".":
16871687
abbrev = token.txt + next_token.txt
16881688
if abbrev in Abbreviations.FINISHERS:
1689-
token = TOK.Word(abbrev)
1689+
token = TOK.Word(abbrev, token.val)
16901690
next_token = next(token_stream)
16911691

16921692
# Coalesce [year|number] + ['e.Kr.'|'f.Kr.'] into year

test/test_tokenizer.py

Lines changed: 9 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -257,10 +257,9 @@ def test_single_tokens():
257257
[
258258
Tok(
259259
TOK.WORD,
260-
"m.kr",
260+
"m.kr.",
261261
[("milljónir króna", 0, "kvk", "skst", "m.kr.", "-")],
262262
),
263-
Tok(TOK.PUNCTUATION, ".", None),
264263
],
265264
),
266265
(
@@ -652,7 +651,7 @@ def test_sentence(text, expected, **options):
652651
" Góðan daginn! Ég á 10.000 kr. í vasanum, €100 og $40.Gengi USD er 103,45. "
653652
"Í dag er 10. júlí. Klukkan er 15:40 núna.Ég fer kl. 13 niður á Hlemm o.s.frv. ",
654653
"B W W P E B W W A W W P A W A P E B W W W N P E "
655-
"B W W W DR P E B W W T W P E B W W T W W W W P E",
654+
"B W W W DR P E B W W T W P E B W W T W W W W E",
656655
)
657656

658657
test_sentence(
@@ -686,15 +685,15 @@ def test_sentence(text, expected, **options):
686685
"Málið um BSRB gekk marg-ítrekað til stjórnskipunar- og eftirlitsnefndar í 10. sinn "
687686
"skv. XVII. kafla þann 24. september 2015 nk. Ál-verið notar 60 MWst á ári.",
688687
"B W W W W W W W W O W "
689-
"W O W W DA W P E B W W ME W W P E",
688+
"W O W W DA W E B W W ME W W P E",
690689
)
691690

692691
test_sentence(
693692
"Ég er t.d. með tölvupóstfangið fake@news.com, vefföngin "
694693
"http://greynir.is og https://greynir.is, og síma 6638999. Hann gaf mér 1000 kr. Ég keypti mér 1/2 kaffi. "
695-
"Það er hægt að ná í mig í s. 623 7892, eða vinnusíma, 7227979 eða eitthvað.",
694+
"Það er hægt að ná í mig í s 623 7892, eða vinnusíma, 7227979 eða eitthvað.",
696695
"B W W W W W M P W "
697-
"U W U P W W TEL P E B W W W A P E B W W W N W P E "
696+
"U W U P W W TEL P E B W W W A E B W W W N W P E "
698697
"B W W W W W W W W W TEL P W W P TEL W W P E"
699698
)
700699

@@ -736,7 +735,7 @@ def test_sentence(text, expected, **options):
736735

737736
test_sentence(
738737
"1.030 hPa lægð gengur yfir landið árið 2019 e.Kr. Jógúrtin inniheldur 80 kcal.",
739-
"B ME W W W W Y P E B W W ME P E",
738+
"B ME W W W W Y E B W W ME P E",
740739
)
741740

742741
test_sentence(
@@ -780,7 +779,7 @@ def test_sentence(text, expected, **options):
780779
)
781780

782781
test_sentence(
783-
"Þórdís Kolbrún Reykfjörð Gylfadóttir var skipuð viðskipta-, dómsmála-, ferðamála- og iðnaðarráðherra þann 12. mars 2019.",
782+
"Þórdís Kolbrún Reykfjörð Gylfadóttir var skipuð viðskipta- dómsmála- ferðamála- og iðnaðarráðherra þann 12. mars 2019.",
784783
"B W W W W W W W W DA P E",
785784
)
786785

@@ -801,7 +800,7 @@ def test_sentence(text, expected, **options):
801800

802801
test_sentence(
803802
"Fyrri setningin var í þgf. en sú seinni í nf. Ég stóð í ef. en hann í þf. Hvað ef.",
804-
"B W W W W W W W W W W P E B W W W W W W W W P E B W W P E",
803+
"B W W W W W W W W W W E B W W W W W W W W E B W W P E",
805804
)
806805

807806
test_sentence(
@@ -836,7 +835,7 @@ def test_sentence(text, expected, **options):
836835

837836
test_sentence(
838837
"Jón, kt. 301265-5309, vann 301265-53090 kr. H2O var drukkið.",
839-
"B W P W K P W N P A P E B MO W W P E",
838+
"B W P W K P W N P A E B MO W W P E",
840839
)
841840

842841
test_sentence(

0 commit comments

Comments
 (0)