-
Notifications
You must be signed in to change notification settings - Fork 1k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【征集】不兼容站点 url #136
Comments
目前如下站点V0.3.2已经测试可以完美读取, 后续大家发现不能读取的网站,欢迎跟帖 |
https://www.gd121.cn/zx/qxzx/list.shtml |
你用最新的 V0.3.5 试试看,我试下来可以啊 |
更新为V0.3.5版本了: |
进不进链接、以及如何提取数据是按你兴趣点设定的,你可以把兴趣点写的详细写,比如2024年12月12日广州市的天气这些……不然的话,任何页面的有关广州天气的信息都会提取(如果页面很多的话,你要等待所有页面都爬取完毕后) |
明白了,非常感谢您 |
测试下来 https://www.zhihu.com/topic/19552832/hot 这个不行 |
学习强国全站效果都一般…… |
https://arxiv.org/list/cs/recent ,content有抓到但是会抓到一些url都是列表页面的url,还有重复的url,而且抓取的条目有一些跟兴趣点关联不是很大 |
v0.3.6可以了 |
可以尝试下 v0.3.6的效果 (需要重新拉代码仓,pip uninstall crawlee pip install crawl4ai==0.4.245 删除原来的 pb/pb_data) |
V0.3.6可以了,但是不要太频繁(一天一次ok) |
试了抓取文章的可用性高了很多,但是出现一个新的问题他会一直抓取search页面,导致停不下来,是不是要加入一种非兴趣点的东西排除这些干扰内容 ———— |
@tusik 你的意思是 gpt4o 比 deepseekV3抓取出来的东西更多,但引入的无关信息也更多? |
我最后发现其实是DSV3是没有遵守prompt输出,get_info要求输出 |
https://www.shenmezhideting.com/app/homepage 这个网站抓取不到作曲数量排名 |
V0.3.7 会支持这个站点。 |
wiseflow计划在下一个版本(V0.3.2)引入全新的基于 playwright 的通用爬虫,以实现对复杂页面(尤其是动态页面)的更好适配。
目前初步试验下来,包括之前容易解析为乱码的国内新闻网站,无法获取全部信息的论坛都能得到很好的支持……如果您在实际业务中有发现目前版本不能很好支持的url 或者您业务中常见的 url,欢迎跟帖留言,我将优先进行测试。
感谢大家!
The text was updated successfully, but these errors were encountered: