Merge pull request #17 from mideind/abbrevfix

vthorsteinsson · web-flow · commit 69a44432a908 · 2020-07-02T16:04:11.000Z
Abbrevfix
diff --git a/README.rst b/README.rst
@@ -754,6 +754,9 @@ can be found in the file ``test/toktest_normal_gold_expected.txt``.
 Changelog
 ---------
 
+* Version 2.1.0: Changed handling of periods at end of sentences if they are
+  a part of an abbreviation. Now, the period is kept attached to the abbreviation,
+  not split off into a separate period token, as before.
 * Version 2.0.7: Added ``TOK.COMPANY`` token type; fixed a few abbreviations;
   renamed parameter ``text`` to ``text_or_gen`` in functions that accept a string
   or a string iterator
diff --git a/setup.py b/setup.py
@@ -57,7 +57,7 @@ def read(*names, **kwargs):
 
 setup(
     name="tokenizer",
-    version="2.0.7",  # Also update src/tokenizer/__init__.py
+    version="2.1.0",  # Also update src/tokenizer/__init__.py
     license="MIT",
     description="A tokenizer for Icelandic text",
     long_description=u"{0}\n{1}".format(
diff --git a/src/tokenizer/__init__.py b/src/tokenizer/__init__.py
@@ -42,4 +42,4 @@
 from .abbrev import Abbreviations, ConfigError
 
 __author__ = u"Miðeind ehf"
-__version__ = u"2.0.7"  # Also update setup.py
+__version__ = u"2.1.0"  # Also update setup.py
diff --git a/src/tokenizer/tokenizer.py b/src/tokenizer/tokenizer.py
@@ -1682,18 +1682,28 @@ def parse_phrases_1(token_stream):
         while True:
 
             next_token = next(token_stream)
+            # Coalesce abbreviations and trailing period
+            if token.kind == TOK.WORD and next_token.txt == ".":
+                abbrev = token.txt + next_token.txt
+                if abbrev in Abbreviations.FINISHERS:
+                    token = TOK.Word(abbrev, token.val)
+                    next_token = next(token_stream)
 
             # Coalesce [year|number] + ['e.Kr.'|'f.Kr.'] into year
             if token.kind == TOK.YEAR or token.kind == TOK.NUMBER:
                 val = token.val if token.kind == TOK.YEAR else token.val[0]
+                nval = None
                 if next_token.txt in BCE:  # f.Kr.
                     # Yes, we set year X BCE as year -X ;-)
-                    token = TOK.Year(token.txt + " " + next_token.txt, -val)
-                    next_token = next(token_stream)
+                    nval = -val
                 elif next_token.txt in CE:  # e.Kr.
-                    token = TOK.Year(token.txt + " " + next_token.txt, val)
+                    nval = val
+                if nval is not None:
+                    token = TOK.Year(token.txt + " " + next_token.txt, nval)
                     next_token = next(token_stream)
-
+                    if next_token.txt == ".":
+                        token = TOK.Year(token.txt + next_token.txt, nval)
+                        next_token = next(token_stream)
             # TODO: "5 mars" greinist sem dagsetning, vantar punktinn.
             # Check for [number | ordinal] [month name]
             if (
diff --git a/test/test_tokenizer.py b/test/test_tokenizer.py
@@ -145,8 +145,7 @@ def test_single_tokens():
             "Fimmtánda mars árið 44 f.Kr.",
             [
                 Tok(TOK.WORD, "Fimmtánda", None),
-                Tok(TOK.DATEREL, "mars árið 44 f.Kr", (-44, 3, 0)),
-                Tok(TOK.PUNCTUATION, ".", None),
+                Tok(TOK.DATEREL, "mars árið 44 f.Kr.", (-44, 3, 0)),
             ],
         ),
         ("17/6/2013", [Tok(TOK.DATEABS, "17/6/2013", (2013, 6, 17))]),
@@ -172,21 +171,12 @@ def test_single_tokens():
         ),
         ("2013", [Tok(TOK.YEAR, "2013", 2013)]),
         ("20130", [Tok(TOK.NUMBER, "20130", (20130, None, None))]),
-        (
-            "874 e.Kr.",
-            [Tok(TOK.YEAR, "874 e.Kr", 874), Tok(TOK.PUNCTUATION, ".", None)],
-        ),
-        (
-            "2013 f.Kr.",
-            [Tok(TOK.YEAR, "2013 f.Kr", -2013), Tok(TOK.PUNCTUATION, ".", None)],
-        ),
+        ("874 e.Kr.", [Tok(TOK.YEAR, "874 e.Kr.", 874)]),
+        ("2013 f.Kr.", [Tok(TOK.YEAR, "2013 f.Kr.", -2013)]),
         ("árið 2013", [Tok(TOK.YEAR, "árið 2013", 2013)]),
         ("árinu 874", [Tok(TOK.YEAR, "árinu 874", 874)]),
         ("ársins 2013", [Tok(TOK.YEAR, "ársins 2013", 2013)]),
-        (
-            "ársins 320 f.Kr.",
-            [Tok(TOK.YEAR, "ársins 320 f.Kr", -320), Tok(TOK.PUNCTUATION, ".", None)],
-        ),
+        ("ársins 320 f.Kr.", [Tok(TOK.YEAR, "ársins 320 f.Kr.", -320)]),
         ("213", [Tok(TOK.NUMBER, "213", (213, None, None))]),
         ("2.013", [Tok(TOK.NUMBER, "2.013", (2013, None, None))]),
         ("2,013", [Tok(TOK.NUMBER, "2,013", (2.013, None, None))]),
@@ -232,20 +222,8 @@ def test_single_tokens():
         ("marg-ítrekað", TOK.WORD),
         ("full-ítarlegur", TOK.WORD),
         ("hálf-óviðbúinn", TOK.WORD),
-        (
-            "750 þús.kr.",
-            [
-                Tok(TOK.AMOUNT, "750 þús.kr", (750e3, "ISK", None, None)),
-                Tok(TOK.PUNCTUATION, ".", None),
-            ],
-        ),
-        (
-            "750 þús. kr.",
-            [
-                Tok(TOK.AMOUNT, "750 þús. kr", (750e3, "ISK", None, None)),
-                Tok(TOK.PUNCTUATION, ".", None),
-            ],
-        ),
+        ("750 þús.kr.", [Tok(TOK.AMOUNT, "750 þús.kr.", (750e3, "ISK", None, None))]),
+        ("750 þús. kr.", [Tok(TOK.AMOUNT, "750 þús. kr.", (750e3, "ISK", None, None))]),
         (
             "750 þús. ISK.",
             [
@@ -279,28 +257,24 @@ def test_single_tokens():
             [
                 Tok(
                     TOK.WORD,
-                    "m.kr",
+                    "m.kr.",
                     [("milljónir króna", 0, "kvk", "skst", "m.kr.", "-")],
                 ),
-                Tok(TOK.PUNCTUATION, ".", None),
             ],
         ),
         (
             "ma.kr.",
             [
                 Tok(
                     TOK.WORD,
-                    "ma.kr",
-                    [("milljarðar króna", 0, "kk", "skst", "ma.kr.", "-")],
+                    "ma.kr.", [("milljarðar króna", 0, "kk", "skst", "ma.kr.", "-")],
                 ),
-                Tok(TOK.PUNCTUATION, ".", None),
             ],
         ),
         (
             "30,7 mö.kr.",
             [
-                Tok(TOK.AMOUNT, "30,7 mö.kr", (30.7e9, "ISK", None, None)),
-                Tok(TOK.PUNCTUATION, ".", None),
+                Tok(TOK.AMOUNT, "30,7 mö.kr.", (30.7e9, "ISK", None, None)),
             ],
         ),
         (
@@ -326,26 +300,23 @@ def test_single_tokens():
         (
             "nk.",
             [
-                Tok(TOK.WORD, "nk", [("næstkomandi", 0, "lo", "skst", "nk.", "-")]),
-                Tok(TOK.PUNCTUATION, ".", None),
+                Tok(TOK.WORD, "nk.", [("næstkomandi", 0, "lo", "skst", "nk.", "-")]),
             ],
         ),
         (
             "sl.",
             [
-                Tok(TOK.WORD, "sl", [("síðastliðinn", 0, "lo", "skst", "sl.", "-")]),
-                Tok(TOK.PUNCTUATION, ".", None),
+                Tok(TOK.WORD, "sl.", [("síðastliðinn", 0, "lo", "skst", "sl.", "-")]),
             ],
         ),
         (
             "o.s.frv.",
             [
                 Tok(
                     TOK.WORD,
-                    "o.s.frv",
+                    "o.s.frv.",
                     [("og svo framvegis", 0, "ao", "frasi", "o.s.frv.", "-")],
                 ),
-                Tok(TOK.PUNCTUATION, ".", None),
             ],
         ),
         ("BSRB", TOK.WORD),
@@ -680,7 +651,7 @@ def test_sentence(text, expected, **options):
         "  Góðan daginn! Ég á 10.000 kr. í vasanum, €100 og $40.Gengi USD er 103,45. "
         "Í dag er 10. júlí. Klukkan er 15:40 núna.Ég fer kl. 13 niður á Hlemm o.s.frv. ",
         "B W     W     P E B W W A       W W      P A    W  A  P E B W W   W  N     P E "
-        "B W W W  DR      P E B W   W  T     W   P E B W W T     W     W W     W      P E",
+        "B W W W  DR      P E B W   W  T     W   P E B W W T    W     W W     W      E",
     )
 
     test_sentence(
@@ -714,15 +685,15 @@ def test_sentence(text, expected, **options):
         "Málið um BSRB gekk marg-ítrekað til stjórnskipunar- og eftirlitsnefndar í 10. sinn "
         "skv. XVII. kafla þann 24. september 2015 nk. Ál-verið notar 60 MWst á ári.",
         "B W   W  W    W    W            W   W                                   W O   W    "
-        "W    O     W     W    DA                 W P E B W    W     ME      W W  P E",
+        "W    O     W     W    DA                 W E B W    W     ME      W W  P E",
     )
 
     test_sentence(
         "Ég er t.d. með tölvupóstfangið fake@news.com, vefföngin "
         "http://greynir.is og https://greynir.is, og síma 6638999. Hann gaf mér 1000 kr. Ég keypti mér 1/2 kaffi. "
         "Það er hægt að ná í mig í s 623 7892, eða vinnusíma, 7227979 eða eitthvað.",
         "B W W W    W   W               M            P W "
-        "U                 W  U             P W  W    TEL    P E B W W  W   A      P E B W W   W   N   W    P E "
+        "U                 W  U             P W  W    TEL    P E B W W  W   A       E B W W   W   N   W    P E "
         "B W W  W    W  W  W W   W W        TEL     P W   W        P  TEL     W   W P E"
     )
 
@@ -764,7 +735,7 @@ def test_sentence(text, expected, **options):
 
     test_sentence(
         "1.030 hPa lægð gengur yfir landið árið 2019 e.Kr. Jógúrtin inniheldur 80 kcal.",
-        "B ME      W    W      W    W      Y             P E B W    W          ME     P E",
+        "B ME      W    W      W    W      Y              E B W     W          ME     P E",
     )
 
     test_sentence(
@@ -829,7 +800,7 @@ def test_sentence(text, expected, **options):
 
     test_sentence(
         "Fyrri setningin var í þgf. en sú seinni í nf. Ég stóð í ef. en hann í þf. Hvað ef.",
-        "B W   W         W   W W    W  W  W      W W P E B W  W    W W   W  W    W W P E B W W P E",
+        "B W   W         W   W W    W  W  W      W W E B W  W    W W   W  W    W W E B W W P E",
     )
 
     test_sentence(
@@ -864,7 +835,7 @@ def test_sentence(text, expected, **options):
 
     test_sentence(
         "Jón, kt. 301265-5309, vann 301265-53090 kr. H2O var drukkið.",
-        "B W P W  K          P W    N     P A      P E B MO W W     P E",
+        "B W P W  K          P W    N     P A       E B MO W W     P E",
     )
 
     test_sentence(
@@ -877,6 +848,11 @@ def test_sentence(text, expected, **options):
         "B W      W  W      W        W            W W                      P E",
     )
 
+    test_sentence(
+        "Tösku- og hanskabúðin, sálug, var á Lauga- eða Skothúsvegi.",
+        "B W                 P W    P W   W W                    P E",
+    )
+
     test_sentence(
         "Tösku-og hanskabúðin, sálug, var á Lauga-eða Skothúsvegi.",
         "B W                 P W    P W   W W                    P E",
@@ -1109,8 +1085,7 @@ def test_abbrev():
         Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),
         Tok(kind=TOK.WORD, txt="Jón", val=None),
         Tok(kind=TOK.WORD, txt="var", val=None),
-        Tok(kind=TOK.WORD, txt="sérfr", val=[('sérfræðingur', 0, 'kk', 'skst', 'sérfr.', '-')]),
-        Tok(kind=TOK.PUNCTUATION, txt=".", val=(3, ".")),
+        Tok(kind=TOK.WORD, txt="sérfr.", val=[('sérfræðingur', 0, 'kk', 'skst', 'sérfr.', '-')]),
         Tok(kind=TOK.S_END, txt=None, val=None),
         Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),
         Tok(kind=TOK.WORD, txt="Guðmundur", val=None),
@@ -1124,8 +1099,7 @@ def test_abbrev():
         Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),
         Tok(kind=TOK.WORD, txt="Jón", val=None),
         Tok(kind=TOK.WORD, txt="var", val=None),
-        Tok(kind=TOK.WORD, txt="t.h", val=[('til hægri', 0, 'ao', 'frasi', 't.h.', '-')]),
-        Tok(kind=TOK.PUNCTUATION, txt=".", val=(3, ".")),
+        Tok(kind=TOK.WORD, txt="t.h.", val=[('til hægri', 0, 'ao', 'frasi', 't.h.', '-')]),
         Tok(kind=TOK.S_END, txt=None, val=None),
         Tok(kind=TOK.S_BEGIN, txt=None, val=(0, None)),
         Tok(kind=TOK.WORD, txt="Guðmundur", val=None),