Bài đăng

Đang hiển thị bài đăng từ Tháng 5, 2019

Bản note kiến thức-Natural Language Processing( Các khái niệm cơ bản)

Hình ảnh
Các khái niệm cơ bản mình thấy thú vị trong quá trình làm NLP: 1. Tokenizer:         - Tách ra words hoặc sentences. 2. Stemming:        -Biến đổi các từ về dạng nguyên gốc bằng cách bỏ những kí tự cuối        VD: walks -> walk, goes->goe tuy nhiên đây cũng chính là nhược điểm của stemming vì gốc goes là go chứ đâu phải goe 3. Lemmatization:       - Thông minh hơn Stemming vì dựa trên bộ từ điển       VD:goes, went->go