miso-belica · miso-belica · Nov 10, 2023 · Apr 11, 2023 · Apr 11, 2023 · Apr 11, 2023
diff --git a/setup.py b/setup.py
@@ -58,6 +58,7 @@
         "Hebrew": ["hebrew_tokenizer"],
         "Greek": ["greek-stemmer-pos"],
         "Arabic": ["pyarabic"],
+        "Thai": ["pythainlp"],
     },
     packages=find_packages(),
     package_data={"sumy": [
@@ -92,6 +93,7 @@
         "Natural Language :: Ukrainian",
         "Natural Language :: Greek",
         "Natural Language :: Arabic",
+        "Natural Language :: Thai",
 
         "Topic :: Education",
         "Topic :: Internet",

diff --git a/sumy/data/stopwords/thai.txt b/sumy/data/stopwords/thai.txt
@@ -0,0 +1,115 @@
+กล่าว
+กว่า
+กัน
+กับ
+การ
+ก็
+ก่อน
+ขณะ
+ขอ
+ของ
+ขึ้น
+คง
+ครั้ง
+ความ
+คือ
+จะ
+จัด
+จาก
+จึง
+ช่วง
+ซึ่ง
+ดัง
+ด้วย
+ด้าน
+ตั้ง
+ตั้งแต่
+ตาม
+ต่อ
+ต่าง
+ต่างๆ
+ต้อง
+ถึง
+ถูก
+ถ้า
+ทั้ง
+ทั้งนี้
+ทาง
+ทำ
+ทำให้
+ที่
+ที่สุด
+ทุก
+นอกจาก
+นัก
+นั้น
+นำ
+นี้
+น่า
+บาง
+ผล
+ผ่าน
+พบ
+พร้อม
+มา
+มาก
+มี
+ยัง
+รวม
+ระหว่าง
+รับ
+ราย
+ร่วม
+ลง
+วัน
+ว่า
+สำหรับ
+สุด
+ส่ง
+ส่วน
+หนึ่ง
+หรือ
+หลัง
+หลังจาก
+หลาย
+หาก
+อยาก
+อยู่
+อย่าง
+ออก
+อะไร
+อาจ
+อีก
+เขา
+เข้า
+เคย
+เฉพาะ
+เช่น
+เดียว
+เดียวกัน
+เนื่องจาก
+เปิด
+เปิดเผย
+เป็น
+เป็นการ
+เพราะ
+เพื่อ
+เมื่อ
+เรา
+เริ่ม
+เลย
+เห็น
+เอง
+แต่
+แบบ
+แรก
+และ
+แล้ว
+แห่ง
+โดย
+ใน
+ให้
+ได้
+ไป
+ไม่
+ไว้
diff --git a/sumy/nlp/tokenizers.py b/sumy/nlp/tokenizers.py
@@ -123,6 +123,26 @@ def tokenize(text):
         return sentence_tokenize(text)
 
 
+class ThaiWordTokenizer:
+    @staticmethod
+    def tokenize(text):
+        try:
+            from pythainlp.tokenize import word_tokenize
+        except ImportError:
+            raise ValueError("Thai tokenizer requires pythainlp. Please, install it with 'pip install pythainlp'.")
+        return word_tokenize(text)
+
+
+class ThaiSentencesTokenizer:
+    @staticmethod
+    def tokenize(text):
+        try:
+            from pythainlp.tokenize import sent_tokenize
+        except ImportError:
+            raise ValueError("Thai tokenizer requires pythainlp. Please, install it with 'pip install pythainlp'.")
+        return sent_tokenize(text)
+
+
 class Tokenizer(object):
     """Language dependent tokenizer of text document."""
 
@@ -150,6 +170,7 @@ class Tokenizer(object):
         'korean': KoreanSentencesTokenizer(),
         'greek': GreekSentencesTokenizer(),
         'arabic': ArabicSentencesTokenizer(),
+        'thai': ThaiSentencesTokenizer(),
     }
 
     SPECIAL_WORD_TOKENIZERS = {
@@ -159,6 +180,7 @@ class Tokenizer(object):
         'korean': KoreanWordTokenizer(),
         'greek': nltk.RegexpTokenizer(r"[ ,;;.!?:-]+", gaps=True),
         'arabic': ArabicWordTokenizer(),
+        'thai': ThaiWordTokenizer(),
     }
 
     def __init__(self, language):