Skip to content

Commit a6c1ce4

Browse files
Modified abbrevs 'hv.' and 'þm.'; added tests
1 parent a896c5e commit a6c1ce4

File tree

2 files changed

+17
-3
lines changed

2 files changed

+17
-3
lines changed

src/tokenizer/Abbrev.conf

Lines changed: 4 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -911,7 +911,7 @@ yfirl.* = "yfirleitt" ao
911911
# Lagaskammstafanir
912912
Alþ.* = "Alþingi" hk
913913
alþ.* = "Alþingi" hk
914-
alþm.* = "alþingismaður" kk
914+
alþm. = "alþingismaður" kk
915915
atkv.* = "atkvæði" hk
916916
atkvgr.* = "atkvæðagreiðsla"
917917
barnal.* = "barnalögin" hk
@@ -984,7 +984,7 @@ viðskn.* = "viðskiptanefnd" kvk
984984
viðskrh.* = "viðskiptaráðherra" kk
985985
viðskrn.* = "viðskiptaráðuneyti" hk
986986
vsl.* = "vátryggingasamningalögin" hk
987-
vþm.* = "varaþingmaður" kk
987+
vþm. = "varaþingmaður" kk
988988
ál.! = "ályktun" kvk
989989
úrsk.* = "úrskurður" kk
990990
útfl.* = "útflutningur" kk
@@ -994,7 +994,8 @@ vvl.* = "lög um verðbréfaviðskipti" hk
994994
þfl.* = "þingflokkur" kk
995995
þflform.* = "þingflokksformaður" kk
996996
þl.* = "þinglýsingalögin" hk
997-
þm.* = "þingmaður" kk # Eða þolmynd
997+
þingm. = "þingmaður" kk
998+
þm. = "þingmaður" kk # Eða þolmynd
998999
þskj.* = "þingskjal" hk
9991000

10001001
nf.* = "nefnifall" hk

test/test_tokenizer.py

Lines changed: 13 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1146,6 +1146,19 @@ def test_abbrev():
11461146
Tok(kind=TOK.PUNCTUATION, txt=".", val=(3, ".")),
11471147
Tok(kind=TOK.S_END, txt=None, val=None),
11481148
]
1149+
tokens = list(t.tokenize("Ég ræddi við hv. þm. Halldóru Mogensen."))
1150+
assert tokens == [
1151+
Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),
1152+
Tok(kind=TOK.WORD, txt="Ég", val=None),
1153+
Tok(kind=TOK.WORD, txt="ræddi", val=None),
1154+
Tok(kind=TOK.WORD, txt="við", val=None),
1155+
Tok(kind=TOK.WORD, txt="hv.", val=[('hæstvirtur', 0, 'lo', 'skst', 'hv.', '-'), ('háttvirtur', 0, 'lo', 'skst', 'hv.', '-')]),
1156+
Tok(kind=TOK.WORD, txt="þm.", val=[('þingmaður', 0, 'kk', 'skst', 'þm.', '-')]),
1157+
Tok(kind=TOK.WORD, txt="Halldóru", val=None),
1158+
Tok(kind=TOK.WORD, txt="Mogensen", val=None),
1159+
Tok(kind=TOK.PUNCTUATION, txt=".", val=(3, ".")),
1160+
Tok(kind=TOK.S_END, txt=None, val=None),
1161+
]
11491162
tokens = list(t.tokenize("Það var snemma dags. Fuglarnir sungu."))
11501163
assert tokens == [
11511164
Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),

0 commit comments

Comments
 (0)