Bản note kiến thức-Natural Language Processing( Các khái niệm cơ bản)
Các khái niệm cơ bản mình thấy thú vị trong quá trình làm NLP:

1. Tokenizer:
-Tách ra words hoặc sentences.
2. Stemming:
-Biến đổi các từ về dạng nguyên gốc bằng cách bỏ những kí tự cuối
VD: walks -> walk, goes->goe tuy nhiên đây cũng chính là nhược điểm của stemming vì gốc goes là go chứ đâu phải goe
3. Lemmatization:
-Thông minh hơn Stemming vì dựa trên bộ từ điển
VD:goes, went->go

1. Tokenizer:
-Tách ra words hoặc sentences.
2. Stemming:
-Biến đổi các từ về dạng nguyên gốc bằng cách bỏ những kí tự cuối
VD: walks -> walk, goes->goe tuy nhiên đây cũng chính là nhược điểm của stemming vì gốc goes là go chứ đâu phải goe
3. Lemmatization:
-Thông minh hơn Stemming vì dựa trên bộ từ điển
VD:goes, went->go
Nhận xét
Đăng nhận xét