ThuVienBao Truyện Scraper v1.22 BETA
Tool để lấy text và raw html từ các websites truyện phổ biến.
http://truyencv.com/xxxxx/
https://truyenyy.com/truyen/xxxxx/
https://bachngocsach.com/reader/xxxxx
https://iread.vn/xxxxx/yyy
http://truyenfull.vn/xxxxx/
https://truyen.tangthuvien.vn/doc-truyen/xxxxx
http://truyencuatui.net/truyen/xxxxx.html
http://truyendich.com/xxxxx/
http://webtruyen.com/xxxxx/
https://wikidich.com/truyen/xxxxx
https://www.wattpad.com/story/xxxxx
- Tự động check chương đã download và update chương mới.
- Tự động lọc text rác bằng regular expression, có thể lọc được hầu hết text rác trừ những cái mới ra chưa update. Dự tính sẽ làm thêm 1 bộ custom regex để người dùng tự thêm.
- Lưu ý dành cho wattpad: Vì site này xài JavaScript & AJAX cho text nên HTTP GET thường không có lấy được nhé, thay vào đó phải xài qua ChromeDriver. Bạn cần download thêm ChromeDriver. Extract
chromedriver.exe
rồi copy vàoC:\Windows
. Muốn biết thêm chi tiết về ChromeDriver có thể vào homepage tại https://sites.google.com/a/chromium.org/chromedriver/. Khi chạy chương trình bạn sẽ thấy Chrome mở lên, cứ để cho nó chạy đừng có làm gì hết. - Tool đang còn beta nên sẽ có bug. Nhớ report dùm nhé.
Xin mời chư vị ủng hộ website ThuVienBao Audiobooks. Nghe truyện audio tiên hiệp, huyền huyễn, ngôn tình...