文字分割
此條目需要精通或熟悉相關主題的編者參與及協助編輯。 (2020年10月7日) |
文字分割(Text segmentation)將書面文字分割成有意義單位的過程,如單詞、句子或主題。這個術語既適用於人類閱讀文字時的心理過程,也適用於在電腦中實現的人工過程,後者屬於自然語言處理的領域。一些書面語言有明確的單詞分界標記,例如英語的詞之間有空格標識,阿拉伯語有獨特的首、中、末字母形狀,但這種標記不是所有書面語言都有。
分割問題
分詞
分詞(Word segmentation)是將一串書面語言分成其組成詞的問題。中文分詞指的是使用電腦自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文分詞被認為是中文自然語言處理中的一個最基本的環節。
Unicode聯盟已經發表了一個關於文字分割的標準附件[1]。
意圖分割
意圖分割(Intent segmentation)是將書面語言分割為關鍵詞(2個或2個以上的詞組)的問題。