huajie wang @basilwang
Joined April 2010-
Tweets107
-
Followers16
-
Following290
-
Likes0
Twitter推荐算法研究 类型 权重分数 上限 点赞 +0.5 分 100 分 转发 +1.0 分 100 分 回复 +13.5 分 100 分 进个人主页 +12 分 1000000 分 视频被播放 +0.005分 100 分 作者回复 +75 分 200 分 回复的回复 +11 分 1000000 分 浏览 2 分钟 +10 分 1000000 分 负面反应 -74 分 -1000 分 被举报 -369 分 -20000 分 总分数的算法 score = sum_i { (weight of engagement i) * (probability of engagement i) } 总分 = 权重 * 参与人数 举个例子,例如有 10 个用户给推文点赞了,那么点赞的权重是 +0.5 分,参与数有 10 个用户,也就是 0.5 * 10 = 5。总计是 5 分的权重。 推文演算法和总分数算法来源:
#SaasS 一直在等这本书出,算是这两年SaaS领域的一本必读书籍了,本书基本把搭建一个完整的SaaS服务全流程都讲了一遍,里面的一些最佳实践和取舍,只要做过SaaS的都应该深有体会。如果你正在做或者打算做AI相关的SaaS推荐看一下,在最后几个章节作者用RAG业务作为案例进行了集成讲解。
构造可靠的RAG应用-用户鉴权与输入【2】 这部分笔记是关于RAG系统中用户鉴权与输入部分(下一篇关于文档索引与存储),挺适合作为checklist用于对自己的系统查漏补缺的,同样先放一张整体的架构图: 1、用户鉴权 用户鉴权是最基础的,supabase、firebase、aws cognito都能实现,其中也细分为好几个部分: 访问控制:通过了鉴权的用户才能使用本系统 数据安全:为授权的用户不能访问机密信息,防止数据泄露 用户隐私:只有本用户才能访问自己的隐私数据 合规:用户数据与隐私需要满足法律规定 责任归属:任何操作都需要关联到具体的用户上,如果有可以操作可以迅速定位 个性化:允许用户进行一些preference的设置 2、输入防护 当用户输入敏感信息或者有害信息的时候需要进行防护,可以用Llama Guard、Sagemaker实现,细分为以下几个部分: 匿名化:用户的输入中如果有个人隐私信息需要将其去除掉(例如名字、邮箱等) 限制子字符串:防止sql注入等攻击 限制主题:比如对于国内政治相关的不能聊,懂得都懂 限制代码:防止可执行的代码注入 限制语言:最好对语言也进行限制,不然容易出现错误的回答 检测prompt注入:对于想注入prompt,将llm带歪的输入也要进行限制 限制token数量:防止成本太高或者超了context window 3、重写查询语句 当用户的输入能通过输入防护之后,还需要对其查询语句进行重写,因为用户的输入可能会很模糊,或者需要一些特定的上下文信息。下面有一些具体的方法: 基于历史的重写:例如[”a和b哪个更好?”,“比较这两者”]这两个查询,后者应该被重写为”比较a和b” 创建子查询:例如”比较a和b”这个查询,通过创造”a的特点是什么”+“b的特点是什么”这两个更加具体的子查询效果通常会更好 创建相似的查询:通过同义词、领域知识等方式创造多个相似的查询语句可以增加检索到正确文档的概率,例如对“a的特点是什么”创造相似的语句:“a的缺点和优点是什么” 原文可查看:rungalileo.io/blog/mastering…
构建可靠的RAG应用-整体架构与故障点【1】 最近读到一篇文章讲述了企业级RAG应用的架构以及每个部分的细节,做了一些笔记,在这里拿出来分享下 整体架构: 一套完备的RAG架构图如下,主要包含四个部分:输入/输出、内容过滤、检索相关、存储 RAG系统中的故障点:
通义千问开源新的Qwen1.5-32B模型,在语言理解、支持多语言、编程和数学能力方面表现出色。 Qwen1.5-32B还融合了GQA技术,使得模型的推理效率更高,部署成本也更加经济。 模型下载:huggingface.co/Qwen/Qwen1.5-3…
🏠 Welcome to the Qwen1.5 family, the new dense model member, Qwen1.5-32B! This model has shown competitive performance comparable to the 72B model, especially impressing in language understanding, multilingual support, coding and mathematical abilities. But beyond that,
Shadcn/UI 迭代简直太快了: 在 Blocks 上面又推出了一个 Lift Mode,启用以后可以很方便的拷贝每一个小模块的源代码,这样就可以快速并且更自由的组合和生成各种模块的代码了。具体效果可以看图: ui.shadcn.com/blocks 非常棒的功能。
Shadcn/UI 发布了新的一系列组件的集合,称之为 Blocks ui.shadcn.com/blocks 直接提供了六种 dashboards 的样式,囊括了各个场景,以及四种登陆的样式,样式简约好看,拷贝来就用,如果要做管理系统的话用起来可以说是非常方便了,有需求的可以收藏下,未来还会有更多。
#每日推荐 营销号利器 MoneyPrinterTurbo - 利用 AI 大模型一键生成高清短视频。 只需提供一个视频主题或关键词,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视。 github.com/harry0703/Mone…
@knowledgefxg GPTshell了解一下
#每日推荐 最酷的开源在线海报图片设计器,漂亮易用且功能强大。 适用于多种场景:海报图片生成、电商分享图、文章长图、视频/公众号封面等,无需下载软件即可轻松实现创意、迅速完成排版。软件同时也是开源的github.com/palxiao/poster… design.palxp.cn
啊哈,当手里有 10个,8个群时,还一楼一楼的爬,这样做运营,不得累死 昨天演示了单个群爬楼的例子,今天玩一下多群总结机器人。依旧采用 wechatbaktool 这个工具 1/ WechatbakTool 抓数据 2/ ChatGPT 挑选当天日期的聊天内容 3/ 调用 OpenAI API 传递 Prompts 写总结 完整的一个 AI 提效的例子。 所用到的一切,都来自 ChatGPT, 我仅做缝合,请叫我“缝合老怪”,哈哈哈哈哈哈
啊哈,微信群聊,自动化爬楼神器,做私域运营的朋友,请注意查收 !! 这是 GPT 实用案例 拆解 SOP: 1/ 利用 WechatBakTool, 导出微信群聊信息。 2/ 并用 GPT 来识别群聊的内容,按照人物总结主题 最有趣的部分在于 GPT 的 Prompt. 提示词工程师,依旧会霸榜热门职业
来辣,晚上拿到的月之暗面 Kimi Chat 200 万上下文的资格,做了几个测试看了看效果。 先说结论200万上下文确实没问题,找内容也很精准,这下真的国内独一份了,长上下文太方便了。 我顺便录了一个视频,具体效果也可以看视频里的内容,下面是具体的测试过程: 首先我尝试了一下日常经常做的任务就是长文本翻译,不管是GPT-4还是Claude我们都没办法直接发给他一个超长文章让他一次性全翻译完,都需要点击多次继续,而且还可能出现幻觉。 我拿今天英伟达发布会的公告加上宝玉的二次翻译提示词让kimi翻译,它一步就完成了全部内容的翻译,不过二次的有些小问题最后一段丢了,第一次翻译的非常完整。 然后是一个人工的大海捞针测试,我给了他一本比较出名的收费小说《道诡异仙》这本小说全文是220万字超了一些我删到了150万字,然后问他里面不同位置的内容。 我首先问了四个主要情节和人物的内容,比如主角的师傅叫什么,某个生物的信息之类的答得都非常准确,最后是一个开放题问他小说中的所有势力,他给出了五六个没有全部给出,不过已经很不错了。 现在可以去Kimichat首页申请200万字上下文的测试资格,感兴趣可以试试。
1/5 Unleash the full power of RAG systems! 🔥 Introducing RAGGED, a framework for finding the optimal RAG configurations and bypassing common pitfalls. Dive deep into our findings: arxiv.org/pdf/2403.09040…
一个开源的上市公司财报文件数据提取工具,使用Mistral-7B提取了10-K的收入报表。输出结果被整洁地格式化为JSON。 工作流介绍: •下载并分块SEC申报文件 • 将块存储在向量数据库中 • 查询向量数据库以获取财务数据 • 使用大语言模型(LLM)提取财务数据 • 使用 instructor 输出JSON 后续的to-do: •从SEC申报文件中提取所有财务报表。 •将财务报表结构化为JSON。 •将报表存储在SQL数据库中。 •构建一个API来提供存储的报表。 •从应用程序调用API,并以表格形式呈现财务数据。
Open Source SEC Filing Reader 📊 A cool and exciting update today. I finally extracted income income statements from a 10-K using Mistral-7B. The output was cleanly JSON formatted. High-level implementation: • download and chunk SEC filing • store chunks in a vector db •
myinvestpilot.com 产品的repo,已经20个repo了,18个微服务,代码80%以上是ChatGPT开发的。关于prompt的管理我有一个很简单的方法,每个repo的docs/CDDR目录都有一个markdown文件,存着我和ChatGPT全部的对话记录,这也是这个项目的生产日记。
MediaCrawle:小红书、抖音、快手、B站和微博的内容一键抓取工具 支持小红书、抖音、快手、B站和微博等平台的视频、图片、评论、点赞和转发等信息的抓取。 可以指定特定数据抓取、集成了IP代理池功能,防止被封、支持多种格式保存抓取数据... github.com/NanmiCoder/Med… 主要功能包括: 1、多平台内容抓取:支持对小红书、抖音、快手、B站和微博等多个热门社交媒体平台的内容进行抓取。能够获取的内容类型包括视频、图片、评论、点赞数和转发数等。 2、多种登录方式:提供了Cookie登录和二维码登录等多种方式,用户可以根据自己的需求和平台的具体要求选择最适合的登录方法。 3、指定数据抓取:允许用户通过指定创作者的主页、关键词搜索或特定的视频/帖子ID来获取数据,提高了数据抓取的针对性和效率。 4、数据保存:支持将抓取到的数据保存到多种格式和存储介质中,包括关系型数据库(如MySQL、PgSQL等)、CSV文件和JSON文件,便于后续的数据分析和处理。 5、IP代理池支持:集成了IP代理池功能,帮助用户解决IP被封的问题,提高爬虫的稳定性和抓取效率。 6、滑块验证码处理:对于部分平台特有的滑块验证码验证方式,提供了相应的处理机制,确保爬虫能够正常登录和抓取数据。 原理:利用playwright搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低。
我的职业生涯目前大部分时候,都是站在 2B 业务的甲方的立场工作,因为推主的业务是 2B 为主的,趁这个机会写一下所谓的 2B 业务在决策的时候,考量的依据有哪些,一个企业给供应商付钱的时候,付的究竟是什么——仅供参考。 2B 业务的定义 我理解的 2B 业务,指的是站在整个企业的立场,决定把某一些业务建立在或合作于外部的供应商产品或服务至上。这里说的「业务」,指的是企业 Business Architecture 中完整的企业运营职能,包括中后台部门的对内业务职责:如科技部门的软件研发职能。这里有一个很重要的差异,就是 2B 应该指的是交付价值是对于「整个企业」而言,区别于对于价值交付于「企业内的员工」的。 如:给每一个科技部门购买 Code Copilot,或者给每一个员工购买 ChatGPT Pro,这严格意义上属于企业渠道的 2C 销售,其价值归属和决策路径都完全不同于我说的狭义上的 2B;而给科技部门或全公司购买项目管理或协作工具,则属于 2B——每个员工虽然都是用户,但整个产品是对整个企业的工作流程生效并产生价值的。 2B 业务的决策因素 对于狭义的 2B 业务,决策的因素无非就是价值,成本,风险这三面形成的三角形而已;只是对不同的企业来说,这三面的评估标准,门槛,都显然不同。其中,前两者相对更容易理解,后者却是连很多我接触过的中大型厂家都忽略或没有专门想清楚的,这很容易造成不必要的销售成本消耗,或错失不必要的销售机会。 1) 先说「价值」 价值很好理解,你的服务或产品本身如果有价值,能解决企业的问题,就一定能找到市场。但企业内部毕竟存在各自的治理结构,你要解决企业的问题,这个故事里一定要找到企业内问题被解决的正确的受益方,避免「卖错了人」。 推主的产品是低代码平台,我用这个举例的话: 低代码平台解决的是针对性场景下构建业务系统可以更高效,维护成本更低的问题,这带来的是企业信息化成本更低效率更高的优势;这件事儿的受益方是整个企业,往下是业务部门,因此尽可能不要以科技部门为突破口去销售,卖不动…… 因此,同时也需要考虑你的用户大概率是业务部门(不懂技术,甚至不懂建模),以此来配合的提供解决方案,培训方案,甚至必要的业务架构师,来避免因为企业内部的实施导致价值打折。 2) 然后说「成本」 成本很好计算,但对企业来说,完整的成本有如下的构成: - 短期经济成本(软件费用,基础设施费用等) - 短期的维护成本(实施周期,人力) - 长期的经济成本 - 长期的维护成本(维保的计算,服务水平的依据) 把这些都想明白,就能有效的双向筛选合适的企业客户。 3) 「风险」才是最重要的 实际上,在选择供应商产品的时候,企业越大,「风险」这一面的复杂度就越高,其决策占比就会越高。 首先是经营连续性风险。 我厂对供应商的标准评估模型里,举一条来说:考察供应商的企业规模,注册资本,经营状况。 逻辑很简单,如果你比我更可能倒闭,那我怎么能把我的业务构建在你的产品或服务之上呢? 对软件产品来说,有一个 trick 是:开源。 开源意味着背后有社区,也意味着企业能接触到这块产品的白盒状态,最坏的情况是企业自己可以尝试自己兜底,显然运营风险变得大大可控了;闭源意味着这家供应商倒闭了,这个产品就 game over 了,那显然供应商的合规性,可持续性的要求会高很多。 然后是业务连续性风险。 大一些的企业,内部都对所有的业务职能,对应的信息系统有着业务连续性上的定期评估。说白了,我的信息系统业务上可以容忍挂多久,是业务决定的;信息系统针对不同的业务连续性要求,投入不同的系统可用性成本。 对于企业内部的自建系统来说,信息系统的连续性要求,由系统的技术架构(可用性,容灾能力)和运维部门的支持模型(一二三线分工,值班时间等)两部分投入共同决定。 对于依赖于外部厂商的产品来说,连续性的要求无论内部技术部门负责多少,最终需要的是厂商的服务水平来「兜底」的。 这个「兜底」,实际上就是 2B 业务里大部分的费用和利润的来源。 因为原帖说的是「订阅费」,「订阅费」对于 2C 用户来说,相当于「即使没有新功能,我还得继续花钱」;对于 2B 企业来说,相当于「无论有没有新功能,我都要厂商给我兜底」——这是对业务连续性所付出的「保险费」,哪怕一整年都不找你维保一次,这笔钱也是需要的,跟车险一样,和实际上出不出险没有关系。 也是因为如此,许多产品的 Pricing Page 上,都有 Teams 和 Enterprise 两个不同的档,后者基本都是根据企业的实际需求单独议价:也许标准产品一年一百美元,但有企业说一年一万美元,让你提供 1 小时响应时间的 5*12 on-call support,不也是一个不错的 deal 么。 信息系统,还有信息安全风险。 大的企业,特别是受到监管的企业,一定会评估信息安全风险。包括你的产品用的技术栈,依赖的三方组件的版本,是否有能力及时的修复市场上的关键漏洞,持续升级等等。这些严格来说,评估的是「未来的可能」,但越是出的起钱的企业,这些细节就越在乎。 --- 上面兜兜转转说了这么多,回到「订阅费」这个话题。订阅费对于 2C 和 2B (以及 2B 渠道的 2C 销售),可能有完全不同的意义,金主哪怕是同样的金额,付钱的目的和预期的回报也完全不同。
做产品经理的都想要做移动互联网产品,做移动互联网产品的都想着做APP产品,做APP产品的都想做前端的产品,反而是最考验人的后端类产品比如系统啊,支付啊,ERP啊什么的没人愿意做,唉
Y a lin @yyllove123
2 Followers 68 Following
toronto_95188990 @toronto_9518899
133 Followers 1K Following
Xiang Zhang @soloman817
105 Followers 174 Following
David Zhang @DavidZh98127295
1 Followers 3 Following
je t’aime @collinyang
105 Followers 3K Following
魏小兴 @weijianxing
3 Followers 11 Following
khaingtun @khaingtun3
55 Followers 405 Following
林江浩松 @wzx0727
2K Followers 2K Following 80后尾巴,热爱哲学,了解政治、历史,具备相当强的独立思考能力,从来鄙视马哲,也不是连什么是民主都不知道的“民煮逗士“。坚决反对转基因工程, 热爱音乐器材,摄影,手机,电脑各种IT类,其他方面同样涉猎广泛
Z. @wise_hou
1K Followers 1K Following
盖茨大叔 @LoveGates
9K Followers 9K Following 勤劳早起是传统美德,乐于助人是一种快乐,怜香惜玉是男人本性,自说自话是生来权利!嗯,手机再智能,也不过是个工具o(* ̄▽ ̄*)ブ 关于 #Gravity 的使用问题,请先看俺的网盘或者爱范儿论坛上的入门指南,谢谢合作!kDolphin @kDolphin
8K Followers 2K Following 女孩子的裙子呀,会不会突然间被吹起来呢? 女孩们的裙子呀,会不会碰巧地被掀起来呢? 动手什么的不行哟 偷窥什么的也不行哟 强迫什么的更是不行呀 女孩子的裙子呀,会不会突然间被吹起来呢? 女孩子的裙子呀,里面可是装满了男孩的希望 一直在努力啊 已经累了嘛 因为已经好久没碰见过了 (略删节)
Ramsés @ramsesgallego
3K Followers 315 Following Wanna be remembered as a good father. I admire my parents and I aspire to inspire one person at a time. Through energy, commitment & passion. Tweets are my own.
Jannik Kossen @janundnik
2K Followers 692 Following AI Research Scientist at FAIR (@meta) working on LLMs for CodeGen and Reasoning. PhD Student @OATML_Oxford and @oxcsml. Interned @DeepMind and @GoogleAI.
Tony Beltramelli @Tbeltramelli
2K Followers 983 Following Head of Product, AI @MiroHQ | Co-Founder & CEO @uizard (acquired by Miro) | angel investor | tweet about AI, machine learning, UI UX design, and startups
Catherine McMillan @catrosemcmillan
839 Followers 287 Following Chief Operating Officer @aicollectiveco | Newsletter w/ @mreflow (https://t.co/l7TityHyFI) 🌟 Building the human side of AI 🌟
albert yu sun @Albertyusun
355 Followers 456 Following researcher working on simulating legal reasoning environments at Epiq AI Labs. studied @DukeU. research @MSFTResearch, @CuraiHQ. legal @ACLU, @VeraInstitute.
Mohammed Arshad @mdarshad1000
473 Followers 1K Following SWE, R&D @theagentic Building @__paperbrain • Ex - @Microsoft , @UniUtrecht , @MLHacks
Jane Zhang @jjanezhang
3K Followers 841 Following caring deeply, building carefully, and living life 🎉 | agents & llm training @dbrxmosaicai @dukeu I write essays monthly 📝
Bhri @BhrijPatel_PhD
134 Followers 128 Following UMD CS PhD Student, part of @gammaumd Duke B.S. in CS + Math, Creative Writing Minor
Fu-En (Fred) Yang @FuEnYang1
948 Followers 2K Following Research Scientist @NVIDIAAI | Ph.D. @NTU_TW | Prev. Research Intern @NVIDIAAI | Unifying World, Language & Action for Generalist Robotics
Barret李靖 @Barret_China
82K Followers 414 Following AI Engineer | Lifelong Learner | Dad of 2 | Cloud Native | Sharing insights and experiences | 小胡子哥,一个有趣的灵魂
Linmi @Linmiv
52K Followers 485 Following 探索未知,迭代新知,沉淀认知|Notion 中文社区负责人|探索项目管理 |Twitter 是笔记 |帮助小产品增长
Baye @waylybaye
160K Followers 531 Following 一个自由的程序员,以卖 App 为生。边全球旅居边创作产品。作品:熊猫吃短信、DAMA、ServerCat、OpenCat,Miley。
尤雨溪 @yuxiyou
126K Followers 260 Following @evanyou 的中文小号。@voidzerodev 创始人,开源软件开发者,Vue / Vite 作者。此号只聊技术无关的闲话(偶尔破戒警告
Xiaowen @ixiaowenz
22K Followers 2K Following Senior Director in Finance Technology | CEO @ Startup Business Consulting | Extreme INTJ | Alcoholic
Yuanlw @YuanlwAI
49 Followers 904 Following AI Builder |AI 产品工程师 | 独立开发者 Building AI products for real users 🛠️ RAG / Agent / LLMOps 造过处理 77万+ 咨询的 AI 客服系统 现在在做自己的 AI 工具
Kaggle @kaggle
317K Followers 284 Following Kaggle is the largest global AI community of developers, researchers, and enthusiasts who compete, collaborate, and benchmark what's next in AI.
Stability AI @StabilityAI
258K Followers 10 Following We’ll help you make it like nobody’s business. Multimodal media generation and editing tools to get your idea to production. Self-deploy? 👍 Need a partner? 🤝
Berkeley AI Research @berkeley_ai
275K Followers 459 Following We're graduate students, postdocs, faculty and scientists at the cutting edge of artificial intelligence research.
Stanford AI Lab @StanfordAILab
255K Followers 333 Following The Stanford Artificial Intelligence Laboratory (SAIL), a leading #AI lab since 1963. ⛵️🤖 Emmy-winning video: https://t.co/lV9smZTC1m
Google DeepMind @GoogleDeepMind
1.5M Followers 278 Following The engine room of @Google. Building AI safely and responsibly to solve the world’s most complex problems. Join us: https://t.co/jUHQA27iBL
Neuralink @neuralink
1.8M Followers 1 Following Creating a general-purpose, high-bandwidth interface to the brain
Hugging Face @huggingface
710K Followers 222 Following The AI community building the future. https://t.co/TpiXQMQ9rZ
OpenAI @OpenAI
4.9M Followers 4 Following OpenAI’s mission is to ensure that artificial general intelligence benefits all of humanity. We’re hiring: https://t.co/dJGr6LgzPA
Varun Nair @nairvarun18
268 Followers 331 Following building @tomo | @harvey__ai, @curaihq, duke alum
LinuxTOY 🐧 @linuxtoy
37K Followers 248 Following 于 2006 年创建,包括但不限于 Linux 新闻、应用及提示分享。自架服务:https://t.co/xyslSaC7TI / YouTube 频道:https://t.co/ZiD1IT3IG7
HowardSu @HowardSu
7K Followers 549 Following
中行獨復•離 @SidneyZhang
783 Followers 390 Following #DataScience #Math #male #Skorpion #Chineser #Haskell #Rust-lang #Racket #ArchLinux #Python #MachineLearning #cats My Lovely Wife @jossitixzhao
佐拉 @zuola
94K Followers 3K Following 移居台湾的楚国人 https://t.co/0W6q7wWWUr 键盘侠,网络工程师,写作者,自由主义者,盖蒂签约摄影师, 独立纪录片《HIGH TECH,LOW LIFE》主角,imdb编号:nm5051179 。 一个有梦想的人,希望能成为有趣的人。 電話+886 920955544 电子邮件:[email protected]
Xiang Zhang @soloman817
105 Followers 174 Following
David Zhang @DavidZh98127295
1 Followers 3 Following
khaingtun @khaingtun3
55 Followers 405 Following
je t’aime @collinyang
105 Followers 3K Following
Roamlog Lee (漫步) @roamlog
6K Followers 131 Following


































