- 一年的持续Kaggle实践:它教会了我什么?
- 100年的(可解释)人工智能
- 12个 RAG 痛点及解决方案
- 一种新的方法来检测大型语言模型的“虚构”幻觉
- 17种(高级)RAG技术,将你的LLM应用程序原型转变为可投入生产的解决方案
- 你应该注意的两个隐秘的 PySpark 错误
- 2023年回顾:疾病与健康的一年
- 2024年亮点:引起轰动的人工智能与数据科学文章
- 2024年回顾:我对2024年的预测正确与错误,以及对2025年更大胆的预测
- 2024年机器学习工程师面试生存指南
- 2024年:价值驱动的数据人才之年
- 如何在不到12个月的时间里从分析师转型为数据科学家
- 发现Llama模型中每个神经元的作用
- 提升RAG系统的三种高级文档检索技术
- 3个AI应用场景(不是聊天机器人)
- 3种流行的空间插值方法
- 弥合工程与分析之间鸿沟的3个最佳实践
- 2025年数据科学职业发展的3项必备商业技能
- 2024年成为数据科学家的3大挑战
- 构建涉及 API 的增量数据加载脚本时需要解决的 3 个关键问题
- 每个数据科学家必须了解的概率分布的3个关键概念
- 机器学习的3种关键编码技术:适合初学者的指南,包含优缺点和Python代码示例
- 使你的 Matplotlib 图表达到出版水平的 3 个关键调整
- 作为一名初级数据科学家,我犯过的3个痛苦的错误
- 3个强大的SQL查询,帮助你处理日期时间数据
- 应对音乐AI中数据匮乏的三大实用技巧
- 3种简单的统计方法用于离群值检测
- 你从未见过的 3 个 Airflow 中分支的惊人用例
- 作为一些基础图表替代方案的三种三角形图表创意
- 利用 Apple Silicon 的 GPU 进行深度学习的 3 种方法
- 3种让你像(伟大的)数据科学家一样思考的方法
- 我的#30DayMapChallenge 2024
- 330周数据可视化:我的旅程与关键收获
- 3D图聚类与图论:完整指南
- 相交两条3D射线(最近点)
- 使用Python和Meshroom进行3D重建教程
- Lexcube的地理空间大数据三维可视化!(Python)
- 4 个示例助你提升 PySpark 技能
- 如果你打算从Pandas转到Polars,必须了解的4个函数
- 2024年所有分析工程师必须学习的4件事
- 我的求职马拉松的四个建议
- 8分钟看完4年的数据科学
- 5 个你可以在这个周末用 Python 构建的 AI 项目
- 5 款令人惊艳的插件,让你的 Visual Studio Code 界面更具吸引力
- 5个正在扼杀你作为数据工程师潜力的坏习惯
- 5次点击惊艳全场:如何通过更改数据类型快速优化Power BI模型
- 构建受利益相关者喜爱的商业仪表盘的五个必备技巧
- 5个示例,助你掌握PySpark窗口操作
- 提高生产力的 5 种高级数据科学家常用习惯
- 让我成为数据科学家的五个习惯
- 5 个关于生成式 AI 的严峻真相,科技领导者必看
- 提升你数据科学水平的5项关键软技能
- 5个你应该使用的Snowflake查询技巧
- 5 种你必须尝试的 PCA 可视化方法,用于下一个数据科学项目
- 超优化AI工作流的5个支柱
- 确保人工智能不会夺走你工作的5种强大策略——一名Spotify数据科学家的生存指南
- 你可以在机器学习背景下使用的 5 个项目管理框架
- 提升RAG表现的5种经过验证的查询翻译技术
- 启动数据探索的 5 个 Python 一行代码
- 你需要知道的5个Redshift SQL函数
- 用 Python 构建美丽堆叠面积图的 5 个步骤
- 将混乱的函数转换为可生产的代码的5个步骤
- 评估ELT/ETL工具时需要做的5件事
- 5 个让你的简历在 FAANG 应聘中真正脱颖而出的技巧
- 5种有用的可视化来增强你的分析
- 5种服务开源LLM的方法(带代码示例)
- 作为领导者,你如何破坏人工智能的5个方式
- 《50次初吻》与MemGPT
- 直接湖的50种面貌——关于新Power BI存储模式你需要知道的一切
- 56步,1个完整的营销项目:从数据到战略
- 初学者数据科学学生常犯的6个错误
- 微软最新Phi-3视觉语言模型的6种实际应用
- 管理生成性AI产品中声誉与伦理风险的六步框架
- 让AI为你编写Python代码的6个步骤
- 7本关于人工智能的书籍
- 来自英特尔机器学习实习的7个经验
- 我作为数据科学家第一年的7个遗憾
- 7个帮助我作为数据科学家的订阅服务
- 未来可持续的机器学习项目的 7 个建议
- 8张图表,帮助你向外行解释线性回归
- 8个实用的提示工程技巧,帮助提升LLM应用
- 数据科学面试的8个收获
- 大多数数据科学课程未教的8件事(但你应该知道)——第二部分
- 8年数据之路:我希望从一开始就知道的事情
- 开始问你的数据“为什么?”——因果关系的温和入门
- 9.11还是9.9——哪个更大?
- 提升检索增强生成(RAG)系统的9种有效技术
- 时间序列分析要点
- 2024年从“忙碌”的数据科学家到高效数据科学家的9个简单技巧
- 构建AI助手的10分钟模板
- 一个6个月的详细计划,帮助你打造初级数据科学作品集
- 量子生成对抗网络基础介绍
- 面向初学者的LLM简介
- 使用ChatGPT建立数据科学作品集网站:完整教程
- 从视频构建知识图谱的入门指南
- 初学者探索关键数学概念:应用数据分析简化版
- 类别编码器的基准与分类
- 《线性代数一瞥:矩阵链乘法》
- 线性代数的鸟瞰图:正交归一矩阵
- 线性代数的鸟瞰图:秩-零度定理及行秩为何等于列秩
- 语言模型在文本生成中的演变概述
- 《论集成方法——数据科学家的最佳朋友》
- 近距离观察 AI 痛点,以及如何(有时)解决它们
- 细看 Scipy 的 Stats 模块 — 第 1 部分
- 细看 Scipy 的 Stats 模块 — 第 2 部分
- BERT完整指南(附代码)
- 完整指南:在AWS上掌握Step Functions
- 完整指南:编写你自己的Transformer
- 《实践中的协作AI代理综合指南》
- 《Matplotlib插入坐标轴的全面指南》
- 混合整数线性规划建模技术的全面指南
- A/B 测试的全面引导项目(带有笔记本)
- 市场数据工程的全面介绍
- 自动驾驶感知工程师规划速成课程
- 对AI图像生成的批判性审视
- 使用 Taipy 在纯 Python 中创建数据仪表盘
- 数据网格实现:加速从ERP/CRM系统中提取价值
- 数据人员应对分析瘫痪的指南
- 数据科学领导者确保每个项目推动业务价值的指南
- 一项面向日全食观察者的数据科学项目
- 数据科学家指南:相关方
- 数据科学家的一天
- 2024年数据分析顾问的一天
- 深入探讨赔率比
- 深入探讨LIME的局部解释
- 深入探讨使用逻辑回归的优势比
- 人机交互(HCI)与设计研究论文发表指南
- Claude Sonnet 3.5 系统提示的法医分析
- 深度学习中的非线性全新视角
- 分布式推理的DCIN简介
- 《走得太远:图形RAG并不需要每个图形工具》
- A/B 测试中估算长期效应的指南
- 从零开始建立数据部门指南
- 聚类算法指南
- 数据工程基础设施指南
- 使用 Python 进行数据管道测试指南
- 机器学习中的线性与非线性指南
- 强大的 Python 枚举指南
- 使用 weakref 模块深入了解 Python 的弱引用
- LLM评估指标的高级指南
- 人道主义危机情况报告AI助手:探索LLMOps与Prompt Flow
- 一种机器学习莫比乌斯环:模型能够相互学习吗?
- 一种混合方法的新闻推荐系统离线评估
- 一种新的AI安全方法:层增强分类(LEC)
- 新的相关系数
- 中心极限定理的新视角
- 高绩效数据科学团队新经理指南
- 一种利用聚类检测协调攻击的新方法
- 一个 Patch 大小超过了 16*16 像素
- 一种强大的EDA工具:分组聚合
- 提升Python代码效率并简化复杂工作流的强大功能
- 一种实用的算法效率方法
- 数据分析的实用框架:六大核心原则
- 搜索评估的实用框架
- 贝叶斯数据科学:什么,为什么,以及如何
- 对比学习实用指南
- 《检索增强生成(RAG)实用指南》
- 亚马逊SageMaker训练作业的优先级调度器
- 中心极限定理的证明
- 提议的 Python 项目完美包原型
- 《Python工程师的3D高斯溅射入门(第一部分)》
- Python工程师的3D高斯点洒射入门(第二部分)
- 一位Python工程师的3D高斯喷溅入门(第3部分)
- 定量方法在产品市场契合度中的应用(Python 代码)
- 网络科学速成指南
- Mojo 快速介绍 —— 一个超快速的 Python 超集
- 一种真实世界中的新颖方法,用于增强推荐系统中的多样性
- 《大型语言模型中‘突现特性’的理性检查》
- 3D网格邻域的清晰和扎实的轮廓
- 使用PCA进行异常值检测的简单示例
- 一个简单的RAG增强视觉问答框架
- 简单的LLM代理部署教程
- 提升 MLLMs 在自定义使用场景中性能的简单方法
- 一个简单的GAN正则化方法
- 提高LLM查询生成的简单策略
- 一种在几秒钟内完成数据分析的简单技巧
- 一种下载数百张剪裁卫星图像的简单方法,无需检索整个场景(Python)
- 构建电影推荐系统图学习系统的逐步指南
- 构建编程语言的逐步指南
- 提升组织分析成熟度的逐步手册
- 长尾的故事:为何营销组合模型中的不确定性很重要
- 一位外科医生对人工智能的思考
- 《连接汽车与重叠监管的故事》
- LLM 超参数的视觉解释
- 语义文本切分的可视化探索
- Mamba和状态空间模型的视觉指南
- 量化的视觉指南
- 决策树和梯度提升的可视化理解
- 逻辑回归的视觉理解
- 对 softmax 函数的视觉理解
- 英伟达最新的多模态大语言模型家族全览
- 周末AI项目:为视力障碍人士制作视觉助手
- 一个周末AI项目:在PC和树莓派上使用YOLO进行物体检测
- 一个周末AI项目:在Android手机上运行LLaMA和Gemma AI模型
- 一项周末AI项目:在树莓派上运行语音识别和LLaMA-2 GPT
- 一个周末的AI项目:在树莓派上使用语音识别、PTT和大规模行动模型
- 一次充满奇思妙想的等待时间之旅
- 通往参数效率的蜿蜒之路
- 有多少宝可梦适合?
- Cramér–Rao 界限
- 《悲惨世界》社交网络分析:使用Marimo笔记本和NetworkX Python库
- 神经网络的消融测试:补偿性伪装
- 关于在 DAX 中根据另一个值计算销售额
- 亚伯拉罕·德·摩弗、他的著名定理与正态曲线的诞生
- 加速AI/ML模型训练的自定义操作符
- 指控性AI:广泛滥用AI技术如何伤害学生
- 使用ClassificationThresholdTuner实现更好的分类结果
- 使用电子商务数据科学获取客户
- 神经网络中的激活函数:如何选择合适的激活函数
- AdaBoost 分类器解析:带代码示例的可视化指南
- Azure 数据平台在云中的着陆区
- 生成方法在匿名化中的应用将彻底改变数据共享和隐私保护。
- 向 Plotly 图表添加渐变背景。
- 向数据科学应用添加时间弹性
- 加性决策树
- 解决人工智能中来自合成数据的模型崩溃问题
- 处理缺失数据
- 如何解决空间依赖性
- 解决蝴蝶效应:使用集成卡尔曼滤波器的数据同化
- AdEMAMix:深入探讨一种新的深度神经网络优化器
- 采用 Spark Connect
- 高级代码生成与大语言模型 — 构建一个合成数据生成器
- 高级数据建模
- 初学者的高级ETL技巧
- 高级提示工程:思维链(CoT)
- 提高RAG的高级查询转换
- 先进的检索增强生成:从理论到 LlamaIndex 实现
- 更高级的递归与跟进检索技术,用于提升 RAG 性能
- 2百万令牌上下文窗口中的高级检索技术:关于重新排序器的第二部分
- 在2百万标记上下文窗口的世界中,先进的检索技术,第1部分
- 提升你的RAG的高级检索技术
- Pytorch中的高级张量选择
- 高级 SQL 用于数据科学
- 使用数据可视化的高级谎言技巧
- 使用sktime进行高级时间序列预测
- 使用 LLM 明智的建议
- 超越天真的RAG:构建更智能和可靠的AI系统的高级技术
- 代理式 AI:从零开始构建自主系统
- 如何在RAGs中实现接近人类水平的分块效果
- 智能体网:自主智能体生态系统的原则
- Agentic Mesh:生成型AI驱动的自主代理生态系统的未来
- 使用 Python 和 Redpanda 聚合实时传感器数据
- AI代理能力工程
- Langfuse中的AI代理单元测试
- AI代理工作流:关于是否使用LangGraph或LangChain构建的完整指南
- AI Agents——从概念到Python中的实际实现
- 网络行业中的 AI 代理
- AI 代理:生成性 AI 中工具调用与推理的交汇点
- AI 代理与 AI 管道:编写 LLM 应用程序的实用指南
- 大科技公司如何剥削内容创作者,并(试图)逃避责任
- 数据与分析中的AI助手、协作伙伴和代理:有什么区别?
- 基于AI的组织网络分析
- AI看起来比以往更简单,但真的是这样吗?
- AI与BI:使用CrewAI和OpenAI构建商业信息报告
- AI for Groups: 使用 7B 类模型构建多用户聊天助手
- 《AI for the Absolute Novice — 直观且全面的解释》
- AI 幻觉:记忆能成为解决之道吗?
- AI 实践:如何选择和部署正确的策略
- AI正在吞噬你的算法
- 人工智能敲响课堂的门
- AI与机器学习在商业中的应用
- 人工智能映射:使用神经网络识别房屋号码
- AI 数学:深度学习中的偏差-方差权衡
- 在AWS Inferentia和Trainium上优化AI模型
- 使用 JAX 进行 AI 模型训练
- AI模型有过期日期——持续学习可能是答案
- AI,我的假日精灵:为完美圣诞打造礼物推荐系统
- 基于AI的工业设备腐蚀检测:AWS可扩展方法
- AI驱动的客户支持应用:基于PGVector的语义搜索,搭载Llama2的RAG系统与先进的翻译模型
- 通过拥抱四个永恒的概念,使你的数据科学技能不受AI影响
- AI通过伪DXA预测你从外部到内部的健康状态
- AI变形者:AI工程师与应用数据科学家角色的变化
- 简化的AI训练:基本数学原理解读
- AI使用场景本质上是不同的
- AI 与人类洞察力在财务分析中的对比
- AI天气模型现在超越传统预报
- AI不会抢走你的编程工作(但它会改变它)
- 人工智能,写作并塑造我的简历
- 深入探索:更详细地了解 4 个 Airflow 内部细节
- 人工智能在通过人类语音检测疾病中的新兴角色
- 使用MLflow进行算法无关的模型构建
- 快速傅里叶变换的算法炼金术
- 数据科学家的算法思维
- 关于 AI 智能体的一切:自治、推理、对齐等
- 你所需要的只是保形预测
- 分析表格数据集,只需要统计学
- 关于非劣性假设检验你需要知道的一切
- 构建 Tableau 径向图所需了解的一切
- 通过 BERT 视角理解 AlphaFold 2
- 精通数据可视化与 Altair 的图形语法
- 减少LLM幻觉的代理方法
- 使用LLMs和LangGraph进行文本数据提取的代理方法
- 组织 Jupyter Notebook 可视化的技巧与窍门
- 一种理解GraphRAG工作原理的简单方法
- 从照片中轻松去除游客的方法
- 下一代异常检测:解锁神经洞察
- 贝叶斯建模用于因果发现的详尽入门指南
- 生命的幻象
- 用于图神经网络解释的互动式可视化
- 贝叶斯 A/B 测试简介
- SQL中的公共表表达式简介
- 介绍:微调预训练的Transformers模型
- 客观贝叶斯推断简介
- 大语言模型提示简介
- 分位损失简介,亦称为弹球损失
- 量子计算机与量子编码简介
- 强化学习简介
- VLM简介:计算机视觉模型的未来
- 数据科学的Docker直观指南
- 直观指南:将 SQL 与 Python 融合以进行数据科学
- 强化学习的直观介绍,第一部分
- 弱监督的直观概述
- 互信息的直观视角
- 一种非传统的训练-测试-验证集划分方法
- 基于开放数据的优化医疗设施位置的Python方法
- 面向日全食追逐者的开源数据库
- 上下文Bandit概述
- LoRA家族概述
- 一种被不公正遗忘的相关系数
- 使用Friedman的H-stat和Python分析特征交互
- 每个数据科学家应该了解的分析框架
- 使用Python分析门多塔湖冰冻现象
- 分析电动汽车购买的利弊:来自报纸新闻的见解
- 使用嵌入模型和大语言模型(LLMs)分析非结构化PDF数据
- Polars查询的构造:Polars与SQL的语法比较
- 窗口函数的结构
- Python中的动态可视化
- 再次登顶珠穆朗玛
- 蚁群优化——直觉、代码与可视化
- Apache Beam:数据处理、数据管道、Dataflow 和 Flex 模板
- Apache Hadoop 和 Apache Spark 用于大数据分析
- 如何设计 X(Twitter)首页时间线 API:值得借鉴的经验
- Apple M2 Max GPU vs Nvidia V100(第二部分):大模型与能效
- Apple M3机器学习速度测试
- 滚动窗口在时间序列中的应用,使用Python
- 应用 LLM 量化与 AWS Sagemaker | Analytics.gov
- 应用Python编年史:Pydantic简介
- 应用统计矩和矩生成函数
- 近似具有多元输出的随机函数
- AI 代理能否完成你在应用上的日常任务?
- 数据科学家是算命师吗?
- GPT是优秀的嵌入模型吗?
- 语言模型是基准测试天才还是现实世界问题解决者?
- 离群点更难预测吗?
- 类人机器人会一直存在吗?
- 我们是孤独的吗?
- 你意识到你数据专长在推动商业盈利能力方面的潜力吗?
- 你确定要成为数据科学经理吗?
- ARIMA:一种预测时间序列数据的模型
- 数组 — 数据科学家的数据结构与算法
- Python 和 Excel VBA 中的数组
- 艺术守护:保护你的在线图像免受生成式AI的侵害
- ASA的警示:重新思考我们在研究中如何使用p值
- ASCVIT V1:自动化统计计算、可视化和解释工具
- 不要问人工智能能为你做什么 — 问问你能与人工智能一起实现什么
- 作为数据科学家个人贡献者,如何请求反馈
- 有限区域内的傅里叶级数的各种形式
- 使用Celery、Redis和Florence 2进行异步机器学习推理
- 视觉变换器的注意力机制解析
- 注意力(并非)你所需要的一切
- 注意力,注意了!
- 音频扩散:生成音乐的秘密武器
- 自编码器:数据科学家的终极指南
- AutoGluon-TimeSeries:一个库包含所有时间序列预测模型
- AutoHyDE:使 HyDE 在高级 LLM RAG 中更加出色
- 使用LLM和TF-IDF自动化视频章节划分
- 数据质量错误检测由LLM驱动
- 自动化提示工程
- 自动化提示工程:终极实用指南
- 自动微分(AutoDiff):带有示例的简要介绍
- 使用GroundingDino进行自动标注
- JAX中的自动向量化
- 使用Python和GitHub Actions自动化数据管道
- 使用 Python 和 SQL 自动化 ETL 到 SFTP 服务器
- 使用DSPy和Haystack自动化提示工程
- 使用大型语言模型(LLMs)自动化研究工作流程
- 自动化您的容器化模型部署
- AutoML与AutoGluon:仅需四行代码即可完成ML工作流
- 自主代理生态系统、数据集成、开源LLM以及其他11月必读文章
- AutoRound:LLMs的准确低比特量化
- 避免在2024年构建数据平台
- 避免滥用和误用T检验和方差分析:分类响应的回归分析
- 精彩的Plotly与代码系列(第一部分):条形图的替代方案
- 用代码实现的精彩Plotly系列(第2部分):条形图上色
- Awesome Plotly与代码系列(第三部分):在长尾中突出显示条形图
- 《Plotly与代码系列(第四部分):分组条形图与多彩条形图》
- 用代码做Plotly系列(第五部分):条形图的排序很重要
- Plotly与代码系列(第六部分):处理长轴标签
- AWS DeepRacer:减少Sim2Real差距的实用指南 — 第1部分 || 准备赛道
- AWS DeepRacer:减少Sim2Real差距的实用指南——第二部分 || 训练指南
- 构建 Azure 容器应用:一个使用 Python Flask、Plotly Dash 和 Docker 的数据分析应用
- 解读 R²:迷惑者的叙述指南
- 回到基础:数据库、SQL 及其他数据处理必读书目
- 时间反向传播 — RNN 如何学习
- 错误假设——即使是经验丰富的数据科学家的失败
- 如何做:时间序列中的基准模型
- 强化学习基础:适用于大语言模型(LLMs)
- 批处理与流处理的统一解密
- MIT Battlecode反思:一个首次进入决赛者的收获
- 用开源LLM应对开放书籍考试
- 贝叶斯定理:用证据理解商业结果
- 贝叶斯推断:感知、推理与决策的统一框架
- 贝叶斯线性回归:完整的初学者指南
- Python中的贝叶斯逻辑回归
- 贝叶斯传感器校准
- 使用混合AI模型击败ChatGPT 4下棋
- 用人工智能击败四子连珠
- 成为一名数据科学家:如果我必须重新开始,我会做什么
- 幕后:解释我作为数据科学家的工作
- RAG 中的幻觉检测方法基准测试
- 基准测试 LLM 推理后端
- 使用GitHub Actions在CICD中进行Pytest基准测试
- 将 Snowflake Cortex 与 Scikit-Learn 在实际预测用例中的表现进行基准测试。
- 伯努利朴素贝叶斯,详解:适合初学者的可视化指南及代码示例
- BERT — 直观且详尽的解释
- 贝塞尔修正:为什么在样本方差中我们除以 n−1 而不是 n?
- AIML产品UX最佳实践
- 数据库设计中的技术列最佳实践
- 使用生存分析改善 A/B 测试
- 更好的可视化,先进的ETL技术,RAG痛点及其他二月必读文章
- 超越AlphaFold:LLM在医学中的未来
- 超越注意力机制:先进的位置嵌入方法如何在Transformer架构中改进原始方法
- 超越微调:合并专业化LLM而不增加数据负担
- 超越FOMO——在人工智能领域保持最新动态
- 超越Kleinberg的聚类不可能定理:我对一个务实的聚类评估框架的学习笔记
- 超越折线图和条形图:7种不太常见但强大的可视化类型
- 超越数学与 Python:你应该发展其他关键的数据科学技能
- 超越预测:提升模型与影响力科学(第一部分)
- 超越RAG:通过LLM进行网络分析以提取知识
- 超越RAG:在语义世界中的精确过滤
- 超越技能:解锁数据科学家的全部潜力。
- 超越盲区
- 超越炒作:当生成性AI并非总是答案时
- 偏差-方差权衡解析:为初学者提供的带有代码示例的视觉指南
- 大 O — 一种实践方法
- BigQuery 方法用于重新创建 Pandas 的顶级 EDA 函数
- Bigram 词云动画展示你的数据故事
- 二分类
- R 中的二项逻辑回归
- 逐步实现:使用有限自动机
- 有限自动机仿真在利用 AI 辅助系统中的应用
- 线性代数的鸟瞰图:左逆、右逆 => 单射、满射映射
- Bit-LoRA作为BitNet和1.58位神经网络技术的应用
- BiTCN:基于卷积网络的多变量时间序列预测
- 一口大小的数据科学:异方差性稳健误差
- BlazeFace:如何在浏览器中运行实时目标检测
- 结合文本与符号:通向强大LLM推理能力的道路
- BM25S — BM25 算法在文档检索中的效能提升
- 在科技裁员期间提升你的数据科学求职之路,第一部分
- 使用 CUDA 加速你的 Python 代码
- 机器学习中的提升算法,第一部分:AdaBoost
- 机器学习中的提升算法,第二部分:梯度提升
- 使用推测性解码提升大语言模型推理速度
- 有界核密度估计
- 新经理常犯的5个错误(这些错误我自己也曾犯过)
- 将逻辑回归拆解到最基本的部分
- JAX 中近端策略优化(PPO)的实用指南
- 解析:为更好的RAG进行分块
- 弥合数据素养鸿沟
- 为你的数据带来结构
- 使用 Gemini 为任何类型的 PDF 构建文档 AI 流水线
- 如何构建一个通用的大型语言模型(LLM)智能体
- 使用 RAG 和混合搜索构建一个(食谱)推荐聊天机器人(第一部分)
- 从零开始构建泰语分词器
- 构建 WhatsApp LLM 机器人:懒人单人程序员指南
- 构建并部署一个多文件、多格式的 RAG 应用到 Web
- 构建并将多文件RAG应用部署到Web
- 使用函数调用构建自主AI代理
- 使用Airflow和Mlflow构建机器学习管道:预订取消预测
- 从零开始构建你的智能体
- 使用 Java 和 Python 构建你自己的类似 ChatGPT 的聊天机器人
- 如何创建合成数据
- 使用代理和工具构建你的个人助手
- 使用 LLM 构建生物医学实体链接器
- 使用LangChain、LLM和Streamlit构建复杂SQL数据库交互的聊天应用
- 从零开始构建卷积神经网络(CNNs)
- 2024年构建数据平台
- 使用Kubernetes构建数据科学平台
- 构建数据仓库
- 使用 LangGraph 构建幻想足球研究代理
- 从零开始构建知识图谱,使用大型语言模型(LLMs)
- 使用LLM和神经网络在你的CPU笔记本上构建本地语音助手
- 从零开始建立一个营销数据科学团队
- 使用 LangChain 代理构建数学应用
- 构建多用途的生成式AI驱动聊天机器人
- 使用LangGraph构建多语言多代理聊天应用 — 第一部分
- 构建PubMed数据集
- 使用 Amazon Bedrock 和 LangChain 构建 QA 研究聊天机器人
- 使用 LangChain 表达式语言(LCEL)构建 RAG 链
- 使用 MongoDB 构建 RAG 流水线:个性化推荐的向量搜索
- 手动在Python中构建随机森林
- 构建可靠的文本分类管道:使用LLMs的分步指南
- 构建一个能够写入 Google Docs 的研究代理(第一部分)
- 构建一个能够写入Google Docs的研究助手(第二部分)
- 构建一个稳健的数据可观察性框架以确保数据质量和完整性
- 构建安全且可扩展的数据与AI平台
- 构建语义图书搜索:使用Apache Spark和AWS EMR Serverless扩展嵌入管道
- 在LangChain中使用工具和工具包构建简单代理
- 打造出色的数据科学作品集:全面指南
- 从零开始构建产品经理的用户洞察收集工具
- 为工业应用构建视觉检查CNN
- 使用IBM Watsonx和Langchain构建代理型检索增强生成(RAG)系统
- 使用DSPy构建AI助手
- 构建一个AI驱动的业务管理系统
- 使用Burr构建邮件助手应用程序
- 构建一个可解释的强化学习框架
- 使用FAISS和CLIP构建图像相似度搜索引擎
- 为Llamaindex工作流构建交互式UI
- 构建LLMOPs管道
- 使用 LangChain、Chainlit 和 Literal AI 构建一个可观察的 arXiv RAG 聊天机器人
- 使用Tidymodels构建与评估客户流失分类模型
- 时间的构建模块:RNN的数学基础与Python实现
- 构建持久的数据管道
- 构建伦理人工智能从数据团队开始——这是为什么
- 构建、评估和跟踪本地高级RAG系统 | Mistral 7b + LlamaIndex + W&B
- 构建Fill.sg,一个GenAI报告工具包
- 使用 LLM 图变换器构建知识图谱
- 构建 LLM 应用:清晰的逐步指南
- 为GitHub构建LLM驱动的编码助手:使用Gemini和Redis的RAG
- 使用LangFlow和Ollama构建本地RAG聊天机器人,无需编码
- 构建可扩展的数据平台
- 构建可持续算法:节能高效的 Python 编程
- 从零开始构建蛋白质的 Transformer 模型
- 构建LLM答案的信任:在PDF中突出源文本
- 使用PySide6构建你的第一个桌面应用程序[数据科学家版]
- 构建模型不够——你还需要推销它
- 构建你自己的AI群聊:一段进入定制宇宙与角色的旅程
- 构建个人AI助手:逐步指南,打造文本与语音本地大语言模型
- 一份关于如何高效使用BigQuery的终极指南
- 一劳永逸地打破人工智能的炒作泡沫
- 使用 Python 进行商业规划 — 库存与现金流管理
- 使用Python进行商业规划——收入优化
- 但反向传播到底是什么呢?(第一部分)
- 使用Claude的新计算机使用模型进行C编程
- 在 Power BI 中使用行级安全计算总百分比
- 在DAX中计算线性外推(或趋势)
- 计算接触
- 与宇宙的沟通
- 从恒星到生命
- 在 Power BI 中计算前一个值
- 使用 Python 计算不确定性系数(Theil's U)
- 正确地校准分类概率
- 校准Python中的市场营销组合模型
- LangChain中的回调函数和管道结构
- AI能“修复”气候变化吗?数据迷的视角
- 管理仪表盘能(也应该)讲故事吗?
- 生成性AI能引发AI崩溃吗?
- 大型语言模型(LLMs)能否用于数据标注?
- LLM 能替代数据分析师吗?学会如何合作
- LLM在生成SQL、SPARQL、Cypher或MongoDB查询时表现更好吗?
- 神经网络能否形成冲击波?
- LLM的推荐能否被操控以提升产品的可见度?
- transformers能解决一切问题吗?
- 你真的了解
__init__.py
吗? - 你能从太空看到战争吗?
- 你能从免费的Python艺术作品和价值数百万美元的艺术品中分辨出区别吗?
- 让你的Python数据可视化图表更“圆润”
- 捕获并释放知识:促进你的AI商业计划的指南
- LLM 微调的碳足迹——一个案例研究
- 利用人工智能打造你的竞争优势
- 案例研究:多语言LLM用于问卷总结
- CatBoost:用于推荐系统、分类和回归的梯度提升树
- 2024年KDD大会的因果AI——为什么那些现在不加入因果列车的公司,在2025年及以后将面临更大的竞争压力
- 使用Python进行因果推断:倾向得分匹配指南
- 因果机器学习在客户保持中的应用:一份使用 Python 的实用指南
- 因果机器学习:我们能通过一个定理实现什么?
- 因果验证:统一的万物理论
- 机器学习模型中的因果关系:引入单调约束
- 🧠🧹 因果性——数据科学的心理卫生
- CausalLM 第2部分:微调模型
- 与AI一起庆祝:来自Mistral和LLaVA在树莓派上的春节建议
- CentralBankRoBERTa:一款用于宏观经济学的LLM
- Pandas 操作链式连接:优点与局限
- 数据网格的挑战与解决方案 – 第一部分
- 数据网格中的挑战与解决方案 — 第二部分
- 数据网格中的挑战与解决方案 — 第3部分
- 图表大战:饼图与排序径向条形图
- 图表之战——堆叠条形图 vs 热图
- 使用Llama 3.2-Vision多模态LLM与您的图片进行对话
- 聊天机器人道德?
- ChatGPT 不是医生
- ChatGPT:两年之后
- ChatGPT 与 Claude 与 Gemini 在数据分析中的比较(第一部分)
- ChatGPT与Claude与Gemini在数据分析中的对决(第二部分):谁在EDA中表现最佳?
- ChatGPT 与 Claude 与 Gemini 对数据分析的比较(第 3 部分):最佳机器学习 AI 助手
- 在Wordle中作弊?一个基于Python和Streamlit的解答器
- 卡方检验:揭示数据中的隐藏模式
- 选择与实施Hugging Face模型
- 在LLM代理框架之间进行选择
- 为K-近邻算法选择正确的邻居数量(k)
- Chronos:亚马逊最新的时间序列预测基础模型
- Chronos:基础模型在时间序列预测中的崛起
- 分类损失函数:直觉与应用
- 超越二分类——将多重逻辑回归拆解成基础概念
- 无分类器引导用于增强大型语言模型(LLMs)性能
- LLM 安全中的无分类器引导 — NeurIPS 2024 挑战经验
- 使用生成式AI在Amazon Bedrock上分类Jira票务
- Classwords — 我最喜欢的数据库列命名规范
- Claude的计算机使用——直观且详尽地解释
- 乡村的气候变化
- 使用R与shinyCyJS构建临床流程图
- CLIP、LLaVA 和大脑
- 使用知识蒸馏将强大LLM的能力克隆到小型本地模型中
- 缩小机器学习与商业之间的差距
- 聚类与预测:回归和分类的迭代方法
- A/B 测试中的聚类标准误
- CodeLlama vs. CodeGemma:使用开放模型进行AI编程辅助
- 在密码中编程:加密数据结构和算法
- 使用LLM进行编程、学习数学、数据科学自由职业及其他3月必读文章
- LLM中的认知提示
- 基于哈希的替代键碰撞风险
- 在RAG系统中结合文本嵌入和知识(图)嵌入
- 结合大型和小型LLM以提升推理时间和质量
- 结合ORPO和表示微调以实现高效的LLAMA3对齐
- 结合讲故事与设计,打造令人难忘的演示文稿
- 数据泄露的常见原因及如何识别
- 数据科学的常见误解
- 沟通或失败:技术工程师必备的被低估技能
- 社区公告 ✨ Insight Media Group LLC收购《Towards Data Science》出版物
- 使用GeoPandas比较国家大小
- 比较 Pandas 和 (%%SQL) 在 Python 中的数据分析
- 比较大数据文件格式的性能:实用指南
- 比较性别比例:重新审视一个著名的统计问题,源自1700年代
- 使用地球搬运工距离比较分布
- 用于指导K-Means聚类的方法比较
- 计算机视觉项目的完整MLOPS周期
- 复杂的列表推导式也可以是可读的!
- 数据科学完美简历打造的全面指南
- PyTorch中的数据集和数据加载器完整指南
- 压缩大型语言模型(LLMs)
- 计算思维:解决任何LLM应用案例的四步流程
- 计算机使用与AI代理人:屏幕互动的新范式
- 计算Statsmodels中A/B测试的最小样本量:如何计算以及为什么
- 条件变分自编码器用于文本到图像生成
- 具有可学习条件嵌入的条件变分自编码器
- 置信区间与预测区间
- 配置 Pytest 以运行 Doctest
- 相互冲突的提示与构建企业级提示库的艺术
- 意识:概念、理论与神经网络
- 在人工智能训练中的同意问题
- 受限句子生成使用吉布斯采样和BERT
- 离散优化中的构造性启发式
- 上下文辅助预测:利用文本数据提升预测准确性
- 自注意力机制与代码解析
- 持续学习——深入探讨弹性权重整合损失
- 持续学习:入门
- 持续学习:三种常见场景
- 使用sktime便捷的时间序列预测
- 会话分析是企业数据科学的未来
- 卷积层—CNN的构建模块
- 任何 Rummy 变种的核心 AI
- 会话式人工智能驱动的数据分析是否终于能够解决数据民主化的难题?
- 语言AI中的反事实
- Counts异常值检测器:可解释的异常值检测
- 学习机器学习的勇气:梯度下降与流行优化器的详细探索
- 勇敢学习机器学习:从数学理论到编码实践,全面解释反向传播
- 学习机器学习的勇气:解决梯度消失和梯度爆炸问题(第一部分)
- 学习机器学习的勇气:解决梯度消失与爆炸问题(第二部分)
- 覆盖率与准确性:在数据科学中找到平衡
- 用Python制作自定义词云猜谜游戏
- 使用Python制作卫星图像时间序列GIF
- CRAG — 直观且详尽的解释
- 如何使用OpenAI的助手API和Streamlit创建专业聊天机器人
- 使用 Llama 3.1 创建合成数据集,以微调你的 LLM
- 创建一个由 AI 驱动的产品,结合计算机视觉和 ChatGPT
- 创建一个具有 OpenAI 函数调用功能的代理
- 创建一个 AI 驱动的电影问答游戏,使用 Gemini LLM、Python、FastAPI、Pydantic、RAG 等
- 创建一个互动地图来显示卫星影像的时间序列
- 在本地PC上使用GPT4All LLM与Java创建并重构您的离线ChatGPT
- 使用MergeKit创建专家混合
- 使用自助法和遗传算法创建更强的决策树
- 使用ChatGPT创建你自己的餐单计划器
- 从零开始创建你自己的提示增强器
- 创建一个更好的仪表板——神话还是现实?
- 如何使用 Vercel V0 为你的 ML 应用程序创建一个吸引人的前端
- 使用Langflow和Astra DB创建RAG聊天机器人
- 创建一个用于卫星影像可视化的 Streamlit 应用:逐步指南
- 使用 GPT-4o 创建 WhatsApp AI 助理
- 使用 OpenAI 助理 API 和 Streamlit 创建助理
- 使用dbt在Snowflake表格上创建动态数据透视表
- 创建具有互动性的 Power BI 仪表盘,吸引你的观众
- 为了(大量)乐趣和(一点点)利润创建OpenAI GPTs
- 使用VSCode在Python中创建项目环境
- 创建卫星图像时间推移
- 从头创建 SMOTE 过采样
- 创建合成用户研究:使用人物角色提示和自主代理
- 使用LangGraph和LangChain创建任务导向对话系统
- 创意画布:使用AI绘画、编辑和风格化图像
- 使用不同抽样技术的信用卡欺诈检测
- 使用 Python 裁剪 Landsat 场景的边界框
- 使用XGBoost进行交叉验证——通过Tidymodels增强客户流失分类
- 求职数据分析
- SQL中的CTE与子查询——3个实用技巧帮助做出正确选择
- AI 的 CUDA —— 直观且详尽的解释
- 构建一个自定义AI Jira代理
- 为了更安全的代码更改创建自定义预提交钩子
- 客户流失:如何定义客户未告知其离开的流失
- 使用人工智能进行顾客画像:通过OpenAI从日常清单构建购物券
- 客户细分项目:训练、测试、调整、重复
- 定制大型语言模型
- 使用 Docker Compose 定制 RStudio 容器
- CV VideoPlayer — 一劳永逸
- 循环划分:一种最多提高1.5倍速度的划分算法
- 循环编码:时间序列特征的替代方法
- Cypher 生成:好、坏与混乱
- 稠密和稀疏嵌入之间的舞蹈:启用 LangChain-Milvus 中的混合搜索
- Dask DataFrame 现在非常快速
- 使用命名的Lambda函数进行数据分析
- 数据架构:经验教训
- AI在科学中的数据增强:一项地球科学案例研究
- 优秀的数据业务是什么?
- 最小化医疗人工智能偏差的数据策划实践
- 数据脏乱度评分
- 数据破坏以提升实体嵌入
- 数据驱动的旅程优化:使用深度学习设计客户旅程
- 数据赋能商业
- 数据工程:增量数据加载策略
- 数据工程,重新定义
- 数据泄露在预处理中的解释:带代码示例的视觉指南
- 数据最小化并不保证隐私
- 数据模型设计101:复合键与代理键
- 后现代数据架构的数据建模技术
- AI 开发中的数据隐私:数据本地化
- 数据缩放基础:标准化与最小-最大缩放解析
- 我希望早点知道的数据科学建议
- 数据科学在家:用蒙特卡罗与遗传算法解决保姆日程难题
- 数据科学最佳实践,第2部分 — 一起工作
- 数据科学职业挑战——以及如何克服它们
- 《学校的数据科学,第一部分:使用 Python 和 OR-Tools 自动化课程表管理》
- 学校的数据科学,第2部分:使用Python进行学生选修课程分配
- 可持续性数据科学——绿色库存管理
- 数据科学与可持续性 — 模拟循环经济
- 可持续采购的数据科学
- 数据科学在价值链管理中的应用
- 营销中的数据科学:使用Python进行倾向性建模实战
- 数据科学并没有那么特别
- 数据科学与政治的结合
- 数据科学作品集、加速Python、KANs及其他5月必读文章
- 数据科学项目管理
- 数据科学薪资分解 2024
- 数据科学技能 101:如何解决任何问题
- 数据科学技能101:如何解决任何问题,第二部分
- 数据科学支持循环经济实施
- 数据科学独角兽、RAG管道、新的相关系数,以及其他四月必读文章
- 数据科学家回答最受欢迎的数据科学问题
- 数据科学家若不掌握这些函数,无法在Python中取得优异表现
- 数据科学家在云端工作。作为学生,如何练习这一技能(第一部分:SQL)
- 数据科学家在云端工作。作为学生,如何实践这一点(第二部分:Python)
- 关于Voronoi图的一切:分析东京公共交通站点的服务区域
- 使用 Pandera 进行 Python 数据验证
- 数据估值——简明概述
- 数据价值血统,终于有了意义?
- 数据可视化入门:吸引眼球的可视化操作手册
- 基本机器学习算法数据可视化备忘单
- 使用大型语言模型和图像生成模型进行数据可视化生成——结合LIDA
- 数据可视化技术,医疗数据分析 — 第三部分。
- 数据仓库设计模式
- 数据仓库,重新定义
- 数据库数据转换(面向数据工程师)
- 数据流架构
- DBSCAN,5分钟讲解
- 在 Google Cloud 上大规模部署 dbt 项目
- 利用双重机器学习去偏处理效应
- 解码:理解 Transformer 模型的上下文窗口
- 去嵌套 Google Analytics 数据在 BigQuery 中
- 像专家一样处理缺失数据:多变量和迭代插补算法
- 以AI方式应对认知失调
- 喜马拉雅山的死亡事件
- 技术债务的终结?
- 决策树分类器,解释:适合初学者的可视化指南与代码示例
- 决策树回归器解释:带有代码示例的可视化指南
- 声明式与命令式绘图
- 解码独热编码:类别数据的初学者指南
- 解密准确天气预报背后的技巧:变分数据同化
- 解码时间:揭开LSTM与N-BEATS在精确时间序列预测中的力量
- 解码 Medium 上的写作成功
- 深入探讨Anthropic的稀疏自编码器 ✍️
- 手动深度探讨 LlaMA 3 ✍️
- 深入探索LlamaIndex工作流:基于事件驱动的LLM架构
- 手动深入探讨LSTMs和xLSTMs ✍️
- 深入探讨多线程、多进程和 Asyncio
- 手动深入了解自注意力机制✍︎
- 深入了解Sora的扩散变换器(DiT)手工分析 ✍︎
- 深入探讨变形金刚 ✍︎
- 手工深入了解向量数据库 ✍︎
- 深入探讨使用 Python 绘制的累积局部效应图(ALEs)
- 深度优先搜索 — 基本图算法
- 大规模深度学习:并行模型训练
- 深度学习在作物产量预测中的应用(第一部分 — 模型)
- 深度学习图解,第2部分:神经网络是如何学习的?
- 深度学习图解,第三部分:卷积神经网络
- 深度学习插图版,第4部分:循环神经网络
- 深度学习图解,第 5 部分:长短期记忆(LSTM)
- 使用深度学习预测在线平台中的参与度
- 深度学习与数据科学:谁将胜出?
- 深度强化学习:迈向集成化与统一的人工智能
- 将你的数据作为产品交付,但不是作为应用
- Delta Lake 乐观并发控制:是锁定还是不锁定?
- Delta Lake — 类型扩展
- 需求预测——以价值驱动的方法提供5个洞察
- 像专业人士一样演示 AI 产品
- 普及化LLMs:4位量化以实现最佳LLM推理
- 演示销售中的优先排序效果
- 解密 Azure 存储账户网络访问
- 破解CDC:用简单的语言理解变更数据捕获
- 通过示例揭秘置信区间
- 高效总结海量文档的基本指南,第1部分
- 解密图神经网络
- 揭开Mixtral of Experts的神秘面纱
- 同行评审揭秘:什么,为什么,如何
- 通过大脚怪目击应用程序转型揭开 R Shiny 模块的神秘面纱
- 为数据科学家揭开社交媒体的神秘面纱
- 揭开数据科学中相关性矩阵的神秘面纱
- 使用 Python 去噪雷达卫星图像从未如此简单
- 非规范化:深思熟虑的优化还是不理性的先锋派?
- 使用GitHub Actions部署LightGBM机器学习模型
- 使用 Cloud Run 和 Cloud Build 部署生产就绪的 Streamlit 应用
- 将长时间运行的 ETL 流水线部署到 ECS 与 Fargate
- 使用AWS SageMaker端点部署模型——逐步实现
- 在 AWS EC2 上部署 Tiny-Llama
- 部署大语言模型:vLLM与量化
- 使用SageMaker异步推理部署大型语言模型
- 将LLM应用程序部署到AWS,采用开源自助服务方式
- 使用 TensorRT LLM 将 LLM 部署到生产环境
- 使用苹果的MLX框架在本地部署LLM
- 通过vLLM使用SageMaker端点部署Llama模型
- Depth Anything — 单目深度估计的基础模型
- 设计一个易于使用的深度学习框架
- 《Python设计模式与机器学习工程师:模板方法》
- 设计以AI驱动的软件工程团队
- 设计与部署机器学习 Python 应用程序(第二部分)
- 设计RAG
- 设计大型语言模型(LLMs)与用户体验之间的关系
- 检测社交媒体流量时间序列中的异常
- 使用AI检测云朵
- 检测概念漂移:对机器学习性能的影响
- 使用LLM检测不安全代码
- 时间轴分享:商业文本转视频的演变
- 差分中的差分 101
- 使用稳定扩散3生成图像的不同方式
- 可微分且加速的球面调和变换
- 理解 PyTorch 中的主成分分析
- 医疗数据的差分隐私与联邦学习
- 使用符号回归区分嘈杂的时间序列数据
- 扩散损失:每一步的解释
- 用PyTorch从零开始构建扩散模型
- 扩散模型:Midjourney、Dall-E 通过反向时间从提示中生成图像
- 扩散 Transformer 解析
- DIGITOUR:房地产数字导览自动化 🏠
- 降维简化:PCA理论与Scikit-Learn实现
- 残疾、无障碍性与AI
- 发现 AWS Lambda 基础,运行强大的无服务器函数
- 离散化解释:为初学者提供的带代码示例的可视化指南
- 解剖Stockfish 第三部分:深入了解棋类引擎
- 在 QGIS 和 Python 中溶解地图边界
- 距离度量学习用于异常值检测
- 神经网络的分布式去中心化训练:入门指南
- requirements.txt 已过时
- 深入探讨AutoGen与多智能体框架
- 深入探索结构化输出
- 欧洲的M&M巧克力真的比美国的M&M巧克力更好吃吗?
- 机器学习模型是否存储受保护的内容?
- 不要过度思考“离群值”,改用学生t分布
- 在某些情况下,不要将过滤条件放在“WHERE”子句中
- 我们真的需要深度学习来进行海岸监测吗?
- 成为数据科学家需要学位吗?
- 你真的了解 Python 中的 *args 吗?
- 医生利用多模态数据;医疗 AI 也应该如此
- 文档提取是GenAI的杀手级应用
- 使用大语言模型进行文档解析——附带代码
- 使用MkDocs记录Python项目
- 数据驱动的故事讲述是否需要客观?
- 半监督学习是否有助于训练更好的模型?
- 在招聘过程中使用大型语言模型(LLM)会让你成为候选人中的骗子吗?
- 你的公司有数据战略吗?
- 狗狗排便指南针
- 做好比完美更重要
- 如果你…
- 不要害怕用机器学习解决简单任务
- 别让你的应用崩溃:以批次的形式从数据库加载记录以提升性能
- 今天别洗衣服,明天会更便宜
- 不要修复坏数据,改做这样做
- 不要让你的算法陷入简单数据的洪流中
- 可能是最简单的 Python 线程、进程和 GIL 教程
- 不要让 Python 的
dir()
函数欺骗你! - 不要让你的 RAG 知识库仅限于文本
- 掺假:测试异常值检测器的技术
- 将卫星热图像从1000米缩放到10米(Python)
- DPO全量训练与LoRA:LoRA对DPO训练的效果如何?
- DRAGIN: 基于大型语言模型信息需求的动态检索增强生成
- 在 SQL 中从随机分布中抽样
- DSLP——改变我团队的数据显示科学项目管理框架
- DuckDB 和 AWS — 如何在 1 分钟内聚合 1 亿条数据
- 虚拟分类器详解:面向初学者的视觉指南与代码示例
- 虚拟回归器解释:初学者的视觉指南与代码示例
- 双下划线方法:Python 的隐藏宝石
- 沙丘——一个隐藏的网络
- 使用GenAI进行重复检测
- 动态执行
- 动态 GitHub Pages - 面板 (pyodide-worker)
- Python 中的动态、延迟依赖注入
- 早停法:为什么你的机器学习模型停止训练?
- 赚取与学习:解决一个钓鱼启发的多臂赌博机问题
- 轻松训练专门的LLM:PEFT、LoRA、QLoRA、LLaMA-Adapter等
- 使用Tropycal轻松追踪飓风
- 因果推断的简单方法
- 使用Yolo-NAS进行简单的物体检测
- ECCCos来自黑箱
- 环保人工智能:如何减少你的机器学习模型的碳足迹和水足迹
- 生成性人工智能的经济学
- 托管开源LLMs的经济学
- 使用EDA深入探索词向量
- 使用AI编辑图片中的文字
- 有效的管理机器学习项目的策略
- 使用LLM进行高效文档分块:一次解锁一个知识块
- 通过CMA-ES(协方差矩阵适应进化策略)进行高效特征选择
- 高效特征选择:基于遗传算法
- 使用PyTorch实现高效的大维度自组织映射
- 使用SSD和YoLO模型的高效目标检测——初学者综合指南(第三部分)
- 高效且可扩展的工具使用——LLM 代理
- 使用Python高效测试ETL管道
- 轻松的数据处理:使用R在多个数据文件中查找变量
- 爱因斯坦符号:Transformer 新视角
- 将Markdown文件嵌入Streamlit仪表板
- 赋能数据驱动决策:在文本到 SQL 的 AI 代理中嵌入信任
- 嵌入是有点“浅”的
- 在数据工程中拥抱简洁性和可组合性
- 拥抱不确定性:模糊逻辑在决策中的力量
- 新兴技术没有方法论一切都是空谈
- 情感回路
- 类别数据编码,详解:面向初学者的可视化指南与代码示例
- 编码分类变量:深入探讨目标编码
- 端到端AI应用场景驱动的系统设计
- 基于真实数据的端到端数据工程系统,使用 Kafka、Spark、Airflow、Postgres 和 Docker
- 在 Azure 中的端到端机器学习
- 启动你的机器学习之旅:范围确定、结构设计和数据探索(第一部分)
- 纽约市出租车数据可视化互动展示:Bokeh与Streamlit(第二部分)
- 使用 Hugging Face、FastAPI 和 Docker 的端到端 NLP 项目
- 强制执行商业大语言模型中的JSON输出
- 工程未来:数据、软件与人工智能中的共同线索
- 利用图形数据库的强大功能提升你的网络分析
- 使用StyleGAN-2 ADA增强癌症检测
- 增强数据科学工作流:掌握 Jupyter Notebook 的版本控制
- 在RAG设置中通过自我检索机制提升直接答案准确性
- 用生成式人工智能提升电子商务 — 第1部分
- 通过语义层增强语言模型与图数据库之间的交互
- 通过因果AI提升营销组合建模
- 使用 LLM 和统计推理增强 NPS 测量
- 通过注释提高Python代码的可读性
- 集成学习在异常检测中的应用
- 实体解析知识图谱
- 人工智能繁荣的环境影响
- AlphaFold 3与GPT-4o对蛋白质数据库条目知识的史诗级“交叉”
- 用于估计潜伏期的EpiLPS
- 使用 GAN(生成对抗网络)去除卫星图像中的云
- 设置新Apple M3 MacBook Pro的必备清单
- 实施机器学习的关键考虑事项
- 连续排名概率分数(CRPS)用于预测的基本指南
- 估计未观测的:使用最大似然法在Python中估计移动平均模型
- 使用结果加权学习估算个性化治疗规则
- Python中的ETL管道:最佳实践与技术
- 评估你想评估的任何内容 | 使用LLMs创建高级评估器
- 严格评估RAG,或者失败
- 评估 ChatGPT 在数据科学中的应用:以客户流失预测分析为例
- 评估ChatGPT的数据分析改进:交互式表格和图表
- 评估电影对白——哪些句法和语义特征能预测电影类型?
- 评估边缘检测?不要使用 RMSE、PSNR 或 SSIM
- 评估大型语言模型
- 在Cypher语句生成中评估LLMs
- 评估长上下文大语言模型
- 评估模型再训练策略
- 评估基于LLM的应用性能
- 使用Ragas评估RAG管道
- 使用LLM作为评判者评估SQL生成
- 评估合成数据
- 评估合成数据 — 百万美元的问题
- 评估大型语言模型的文本生成
- 评估时间序列中异常值处理影响的终极指南
- 评估机器学习中的训练-测试集划分策略:超越基础
- 使用PydanticAI进行智能体应用的评估驱动开发
- 使用聊天格式的评估
- 事件研究设计:初学者指南
- 机器学习生命周期的每个步骤简单解释
- 你可以用Python的textwrap模块做的一切
- 关于图形数据库和Neo4j的所有你需要知道的事
- 数据科学的演变:现代端到端数据科学家的新时代技能
- 进化国际象棋难题
- 通过ELLA和VOYAGER研究长期机器学习:为何LLML是AI领域下一次革命性突破的第二部分
- 自然语言处理(NLP)与其他学科领域的影响关系研究
- Excel 电子表格对于大数据来说已经死了。公司需要更多的 Python 来代替。
- 用我们的最新数学和统计必读书单扩展你的数据科学工具箱
- 数据科学学生的期望与现实
- 预期之外的意外:测量惊讶的数学艺术
- 实验追踪与超参数调整:使用 DVC 组织你的试验
- 与 MLFlow 和 Microsoft Fabric 的实验
- 机器学习中的可解释性、可解释性和可观察性
- 可解释的通用机器学习管道与MLflow
- 使用Isolation Forest和SHAP解释异常
- 在 <20 分钟内向任何人解释 ChatGPT
- 向商业利益相关者解释复杂模型
- 解释用于 RAG 和摘要的 LLMs
- 解读OpenAI Sora的时空补丁:关键成分
- 探索性数据分析的11个步骤
- 探索性数据分析:伦敦交通中的失物招领
- 探索在Power BI中使用RLS实现数据安全性的所有方法
- 使用 Python 探索可解与不可解的方程
- 探索二十年的趋势:美国大学录取率与学费
- 通过仪表盘探索巴西的国民账户
- 探索癌症类型与 neo4j
- 使用Python探索因果关系。差分中的差分方法
- 通过自然语言探索数据分析——方法1
- 探索DRESS Kit V2
- 探索目标编码中的层级融合
- 探讨新的 OpenAI 实时 API 如何简化语音代理流程
- 探索LLM在ICD编码中的应用——第一部分
- 使用六边形网格探索位置数据
- 探索Medusa与多token预测
- 探索mergekit进行模型合并,AutoEval进行模型评估,以及DPO进行模型微调
- 探索多模态语言模型在音乐转录中的应用
- 通过数据分析探索我的 LinkedIn 之旅
- 探索使用R-CNN模型进行目标检测——全面的初学者指南(第2部分)
- 探索公共存储轨迹
- 探索跨语言的RAG应用:与《密示拿》对话
- 用数据探索真实与虚拟空间
- 探索递归艺术:使用 Context Free 绘制分形图案
- 探索“小型”视觉-语言模型与TinyGPT-V
- 使用网格世界探索人工智能对齐问题
- 探索基础时间序列模型的最新进展
- 探索睡眠障碍与健康指标之间的关系
- 探索使用PandasAI进行自然语言数据处理的强大功能
- 探索合适的选择:为你的数据库选择主键
- 探索大语言模型在风险博弈环境中的战略能力
- 探索二维批量归一化在深度学习架构中的超级英雄角色
- 利用ARTKIT暴露LLM应用程序中的越狱漏洞
- 将PAC学习扩展到战略分类设置
- 可扩展和可定制的 Vertex AI MLOps 平台
- 使用GLiNER从文本中提取任何实体
- 使用生成式 AI 从自然语言中提取信息
- Fabric Madness
- 事实核查与声明验证
- 假预言者:闪电两次击中
- FanFabler: 将Llama 3调整为多语言同人创作助手
- 神奇的数据独角兽及其寻找之路
- 从农场到餐桌:分类模型的工作流程
- 更快的 DataFrame 序列化
- 机器学习的特征工程
- 使用PySpark在Databricks上进行时间序列特征工程
- 特征工程技术:
- 适用于 Python 中数值变量的特征工程技术
- 具有商业意义的特征工程
- 利用纬度和经度进行特征工程
- 使用 Microsoft Fabric 和 Dataflow Gen2 进行特征工程
- 使用 Microsoft Fabric 和 PySpark 进行特征工程
- 时间序列特征提取,从理论到实践,使用Python
- 使用层次聚类进行可解释模型的特征选择
- 使用 Optuna 进行特征选择
- 使用 SAM2 模型在卫星图像中进行田地边界检测
- FinalMLP:一种简单而强大的双流MLP模型,用于推荐系统
- 使用符号回归在数据中发现隐藏的规律
- 使用子群发现方法在数据中找到不寻常的细分群体
- 寻找我的AI编程助手:为什么Codeium胜过Copilot
- 微调Mistral-7b模型与直接偏好优化
- 对原始文本数据进行微调以训练Instruct模型
- 在你的电脑上使用Unsloth和蒸馏DPO微调Google Gemma
- 使用Unsloth超高效微调Llama 3.1
- 微调 Llama 3.2 实现针对性任务的强大性能
- 微调 Llama 3 与 ORPO
- 微调更小的 Transformer 模型:文本分类
- 使用 Hugging Face Transformers 微调音频光谱图变换器
- 微调Llama 3的微型适配器与VeRA
- 微调BERT进行文本分类
- 在单个消费级显卡上微调大型语言模型
- 使用32位、8位和分页AdamW优化器微调LLM
- 每个数据科学家应该学习的五项工程技能
- 五个你无法忽视不懂按大小比例抽样(PPS)概率抽样的理由
- 修复故障的梯度累积:理解问题及其解决方案
- Flamingo — 直观且全面的解释
- 闪存注意力(快速且内存高效的精确注意力与 I/O 感知):深入探讨
- Florence-2:通过单一VLM模型推动多个视觉任务的进展
- 足球与几何学 — 传球网络
- 预测德国太阳能生产:使用Prophet的实际方法
- 在基础模型时代的预测
- 预测未来:我们如何利用昨天的见解预测明天的需求?
- 使用机器学习和数学预测美国GDP
- 使用NHiTs进行预测:将深度学习与信号处理理论结合,实现卓越的准确性
- 永远学习:为何AI难以适应新挑战
- 忘记统计测试:A/B测试完全是关于模拟的
- 铸造新的职业身份:从数据、机器学习(ML)、人工智能(AI)、产品,到领导者、教练、单人创业者和作家
- FormulaFeatures:一个用于为可解释模型生成高度预测性特征的工具
- 图结构与几何深度学习中的基础模型
- 数据科学家应在工作中融入的四个职业救星
- 四个在简历上看起来很棒的数据工程项目
- 房间里有四只大象和聊天机器人
- 四个基于图的特征工程思路,提升你的机器学习模型表现
- 离开数据科学工作岗位的四个迹象
- 构建自定义自托管Llama3应用程序的四个简单步骤
- 四个与Pandas数据框无缝集成的可视化库
- 在图表中致谢的四种方式
- 从数据中提取洞察的四种方法
- 优化生成式AI以满足业务需求的框架
- 成功指标问题的框架 | Facebook Groups成功指标
- 使用生成对抗网络(GANs)进行欺诈检测
- 用机器学习预测金融行业的欺诈:一位数据科学家的经验
- 从 Adaline 到多层神经网络
- 从 AI 画布到 MLOps 堆栈画布:它们是否必要?
- 从假设到准确性:条件概率在现实世界预测中的作用
- 从基础到进阶:探索LangGraph
- 从代码到洞察:数据分析师的软件工程最佳实践
- 从代码到论文:使用GPT模型和Python生成科学LaTeX文档
- 从数据知情到数据驱动决策:贸易空间探索简介
- 从数据科学家到AI开发者:2023年构建生成式AI Web应用的经验教训
- 从数据科学家到数据经理:我领导团队的前三个月
- 从数据科学家到机器学习/人工智能产品经理
- 从数据到仪表盘:使用 Dash Leaflet 和 SeaRoute 库可视化古代海上丝绸之路
- 从数据到可视化:使用 OpenAI 助理 API 和 GPT-4o
- 从默认Python折线图到期刊级质量信息图
- 从英语文学到数据科学
- 从短暂到持久:使用LangChain在聊天机器人中构建长期记忆
- 从洞察到影响:利用数据科学最大化客户价值
- 从洞察到影响:每个数据科学家都需要的演讲技巧
- 从本地到云端:估算开源LLM所需的GPU资源
- 从遮蔽图像建模到自回归图像建模
- 从MOCO v1到v3:构建自监督学习动态字典的探索 — 第一部分
- 从牛顿到大型语言模型
- 从单模态到多模态:构建基础模型的DIY技术
- 从并行计算原理到CPU和GPU架构的编程
- 从概率方法到预测方法:掌握客户生命周期价值的技术
- 从提示工程到代理工程
- 从原型到生产:提高LLM的准确性
- 从检索到智能:探索 RAG、Agent+RAG 和 TruLens 的评估
- 从零开始到深度分位数预测
- 从 Set Transformer 到 Perceiver Sampler
- 从社会科学到数据科学
- 从替代建模到航空航天工程:一个NASA案例研究
- 从文本到网络:LLMs对知识图谱的革命性影响
- 从理论到实践:使用 Python 进行粒子群优化
- 从视觉变换器到掩码自编码器,5分钟搞定
- 从零到应用:使用 Python 构建数据库驱动的 Streamlit 应用
- FrugalGPT和降低LLM运营成本
- 完整指南:如何使用 Python、Markdown、Git 和 GitHub Pages 构建专业作品集
- 函数调用:在 xLAM 上微调 Llama 3
- Python 中的函数接口
- 未来保障你的数据科学能力的价值
- 博弈论,第1部分——囚徒困境问题
- 博弈论,第2部分——好人先胜
- 博弈论,第3部分——你是你最常与之相处的五个人的平均值
- 门控循环单元(GRU)—— 改进的RNN
- 高斯朴素贝叶斯解释:为初学者提供的带有代码示例的可视化指南
- 从零开始学习高斯过程
- Gemma与Llama与Mistral:探索更小的人工智能模型
- 生成型人工智能安全格局:文本生成图像模型的缓解栈指南
- 生成式AI正在重塑数据科学团队
- 生成式人工智能正在革新搜索
- 使用Python构建GenAI:从零开始构建代理(完整教程)
- 使用Python的生成式AI:编码智能体
- GenAI与Python:LLM与智能代理
- GenAI与Python:使用LLM的RAG(完整教程)
- AI中的性别偏见(国际妇女节版)
- 使用 Nvidia 的 LLaMa-Mesh 生成 3D 图像
- 利用LangChain代理生成音乐推荐
- 使用AutoGen可交互代理生成“验证过的”Python代码
- 在树莓派上使用 Stable Diffusion 和 OnnxStream 生成图像
- 使用 Rust 生成地图瓦片
- 生成式 AI 设计模式:全面指南
- 生成性AI是企业应在2024年接受的赌注
- 生成式人工智能:使用Pytorch生成对抗网络(GANs)合成数据
- 地理位置编码器
- 地理空间索引解释:Geohash、S2与H3的比较
- 从 XAI 中获得更多:10 个技巧
- 在 Python 中开始使用 SQLite3,创建表格并获取行
- 使用Python从任何PDF中提取带下划线的文本
- 我希望我早就学到的 AWS Bedrock 教程:你需要了解的一切,以便为 AWS 基础设施准备你的机器
- 使用Facebook Prophet预测时间序列数据入门
- 开始了解多模态 AI、CPU 和 GPU、独热编码以及其他适合初学者的指南
- 在你的 Python Web 应用中入门强大的数据表格
- 作为地球科学家如何开始使用Python?这里有5种方法帮助你提升代码质量!
- Dev Containers 扩展入门
- 开始使用向量数据库
- 使用Imatrix和K-量化进行GGUF量化,以便在您的CPU上运行LLM
- 机器学习项目的 Git 工作流:我在项目中使用的 Git 工作流
- GitHub: 拉取请求模板
- 谷歌 Gemini 正在加入 Advent of Code 挑战
- 谷歌的 AI 子公司再次发力:AlphaFold 3 现在涵盖了更多的结构生物学领域
- 高尔的距离:用于混合分类和数值数据
- 使用地图和运动学进行GPS插值
- GPT-4V 具有方向性阅读障碍
- 从零开始使用 MLX 构建 GPT
- GPT模型:它是如何工作的?
- GPT 与额头侦探
- GPU加速Polars — 直观且详尽的解释
- 梯度提升回归器详解:带有代码示例的视觉指南
- Gradio: 高级布局
- 基于图的提示与推理在语言模型中的应用
- 2024年图形与几何机器学习:我们目前的状况与未来展望(第一部分 — 理论与架构)
- 2024年图形与几何机器学习:我们处于何种阶段,未来如何发展(第二部分——应用)
- 图神经网络:欺诈检测与蛋白质功能预测
- 图神经网络 第一部分:图卷积网络解析
- 图神经网络 第二部分:图注意力网络与图卷积网络
- 图结构 RAG — 概念介绍
- 图谱RAG、自动化提示工程、智能体框架及其他九月必读文章
- 将 Graph RAG 投入生产——逐步指南
- 图论在模型集成中的协调作用
- 图形可视化:从简单到高级的 7 个步骤
- Graphcast:如何完成任务
- GraphMuse:一个用于符号音乐图形处理的Python库
- GraphRAG 实践:从商业合同到动态问答代理
- 使用VLM和LLM实现常识抓取
- 灰狼优化器——它如何与计算机视觉结合使用
- 理解行为面试
- Groq 和 AI 硬件 —— 直观且详尽的解释
- 群体等变自注意力
- GSM-Symbolic:分析大语言模型在数学推理中的局限性及潜在解决方案
- 引导大型语言模型(LLM)的响应以创建结构化输出
- 使用GloVe嵌入破解《代号》
- 使用SQL在几分钟内处理数十亿条记录 ⏱️
- 处理推荐系统中的反馈循环 — 深度贝叶斯赌博算法
- 处理时间序列中的缺口
- 维度建模中的层次结构处理
- 实践操作:使用人工智能构建虚拟房地产顾问
- 使用马尔可夫链进行职业路径建模,配合Python实践
- 使用 Google Mesop 进行数据可视化实战
- 使用 Python 进行全球优化方法实践
- 实践模仿学习:从行为克隆到多模态模仿学习
- 使用XGBoost进行单调时间序列预测,使用Python
- 《动手实践神经网络与时间序列,使用Python》
- 使用Python进行数值微分实战,从零到英雄
- 《使用遗传算法进行动手优化,Python实现》
- 《在Python中进行期望改进和高斯过程回归的实操优化》
- 使用自编码器进行时间序列异常检测,Python实战
- 实战操作 Moirai:Salesforce 的基础预测模型
- 亲身体验 OpenAI 的 Swarm 多代理框架
- 为分析经理制定全面的仪表板策略
- 细金属棒中的热扩散
- Python 中的混淆矩阵热力图
- 赫克曼选择偏差建模在因果研究中的应用
- Mamba来了:选择性状态空间模型
- 这是使用LLM为怪物生成数据教会我编程的经验
- 这是我通过Wordle学到的关于信息理论的知识
- 高性能 Python 数据处理:pandas 2 与 Polars,从 vCPU 视角看
- 计算机视觉中的方向梯度直方图(HOG)
- 费曼的《时间序列预测的MLOps指南》
- 在单一端点托管多个LLM
- AI如何去除无法察觉的水印
- 人工智能如何很快将人机交互带入新境界
- AlphaFold 3 与 DALLE 2 的相似性及其他启示
- 机器学习初学者如何找到论文(以及在哪里找到)
- 如何以及为什么使用LLM进行基于块的信息检索
- 人工智能如何加剧科学和技术中的再现性危机
- Bend 如何工作:一种“感觉像 Python,但扩展性像 CUDA”的并行编程语言
- 偏倚与方差如何影响你的模型
- 你的回归模型有多偏差?
- 自动驾驶汽车如何更好地工作?
- 我们如何持续适应视觉-语言模型?
- ChatGPT 如何改变我们教授软件开发的方式
- 如何通过群体分析改变您的客户洞察
- 计算机是如何工作的:为我们中的新手提供的指南。
- 数据工程自2014年以来的演变
- Open Food Facts如何利用开源LLM修复OCR提取的成分?
- 计算机究竟是如何进行计算的?
- 计算机是如何记住东西的?
- 我们如何知道人工智能是否只是烟雾弹?
- 图像-文本多模态基础模型如何工作
- 温度如何影响LLMs中的下一个标记预测?
- Segment-Anything 模型(SAM)的解码器是如何工作的?
- Segment-Anything 模型(SAM)的编码器是如何工作的?
- 银河距离
- MLX的运行速度有多快?针对10款Apple Silicon芯片和3款CUDA GPU的全面基准测试
- 谷歌如何利用你的数据来改进他们的音乐AI
- 数据科学面试在4年中如何变化?
- 我如何评估我的Python代码的内存消耗
- 我是如何成为一名拥有破碎英语的国际学生数据科学家的
- 我是如何在没有“完美”学位的情况下成为Meta的数据科学家的
- 我是如何在加入 LinkedIn 之前成为一名数据科学家的
- 我是如何成为一名数据科学家的——没有计算机科学学位,没有训练营
- 我是如何从零开始构建一个基于大型语言模型(LLM)的游戏
- 我是如何构建 BeatBuddy:一款分析你的 Spotify 数据的 Web 应用
- 如何构建我的第一个 RAG 流水线
- 我如何按照CRISP-DM生命周期创建数据科学项目
- 我是如何使用Streamlit为我的学生创建类似Kaggle的平台,以及你也可以如何做到这一点
- 我如何应对 AI 初创公司中的幻觉问题
- 如何将 Apache Flink、Kafka 和 PostgreSQL Docker 化,实现实时数据流处理
- 如何通过两个小习惯提高我的数据科学家工作效率
- 我是如何获得Spotify数据科学实习机会的:我的顶尖科技公司求职指南
- 如何在2周内(从零开始)学习SQL
- 我是如何学会编程的(没有计算机科学学位,没有训练营)
- 我如何学会停止担忧并爱上偏自相关系数
- 如何在一份全职工作中为一切腾出时间
- 如何自学数据科学
- 如何作为数据科学家保持对人工智能的最新了解
- 我如何使用 LlamaIndex 工作流简化我的研究和演示过程
- 我如何在两周内学习LLM:一个全面的学习路线图
- 我是如何将 IPL 数据转化为令人着迷的条形图竞赛
- 我如何作为数据科学家使用ChatGPT
- 作为数据工程师,我如何使用生成型 AI
- 如何赢得一场价值10,000美元的写作比赛
- 我将如何在 2024 年从零开始学习 Python
- 如何成为一名数据科学家(如果我需要重新开始的话)
- 如何学习人工智能(路线图)
- 如果我能从头开始,如何在 2025 年学习 AI
- 我如何在6年后重新学习机器学习
- 我如何学习机器学习(如果我可以重新开始)
- 我如何在2024年学习成为一名数据分析师
- 因果推断在学术界和行业中的不同之处?
- 如何利用大型语言模型推动基因编辑革命
- LLM如何思考
- LLM将如何使探索性数据分析民主化
- 从零开始训练LLM需要多长时间?
- 一碗幸运魅力麦片有多幸运?
- 这张航拍图像中有多少辆车?让我们从头开始用YOLOv8来统计它们!
- 微调 Gemini 需要多少数据?
- 大语言模型消耗多少能源?
- 神经网络如何学习:一种概率视角
- 如何(不)利用数据可视化作弊
- OpenAI的Sora如何改变游戏规则:深入了解其核心技术
- 你的时间序列预测到底有多可靠?
- ReLU如何使神经网络能够逼近连续非线性函数?
- 你应该如何测试你的机器学习项目?初学者指南
- Spotify是如何实现个性化有声书推荐的?
- 大脑与人工智能如何克服遗忘
- 大语言模型如何在网络中迷失并发现图形推理
- 小型神经网络如何表示基本函数
- 如何在数据科学面试中脱颖而出
- 如何在数据科学领域取得进展
- 如何在数据分析师的职业生涯中取得进展
- 市场营销科学101:如何使用合成控制分析基于地理的活动
- 如何通过数据回答商业问题
- 如何在 Power BI 中基于多个列应用 RLS
- 如何将中心极限定理应用于约束数据
- 如何作为初学者接近复杂的数据科学主题
- 如何作为数据科学家更好地沟通
- 如何利用缓存技术提升Python性能
- 如何将 SQL Server 数据导入 Microsoft Fabric
- 如何为数据科学团队构建能力框架
- 如何构建数据驱动的客户管理系统
- 如何构建一个用于从收据中提取信息的生成式 AI 工具
- 如何使用Llama 3构建本地文件的生成式搜索引擎
- 如何从头开始用 Python 构建遗传算法
- 如何在6步内构建一个基于图的神经网络进行异常检测
- 如何构建一个Graph RAG应用
- 如何构建一个本地开源的LLM聊天机器人,结合RAG技术
- 如何构建一个多目标回归模型进行宏观经济预测
- 如何构建一个带自查询检索器的RAG系统
- 如何构建一个 AI 简历优化工具
- 如何构建一个语义搜索引擎来搜索表情符号
- 如何使用Burr、FastAPI和React构建流媒体代理
- 如何使用 OpenAI + Python 构建 AI 助手
- 如何构建一个LLM驱动的应用程序与PapersWithCode聊天
- 如何构建一个 OpenAI 兼容的 API
- 如何为机器学习构建数据管道
- 如何构建用于节点分类的神经网络
- 如何在公司内建立提示工程专业技能
- 如何构建自己的书签搜索AI助手?
- 如何在 5 分钟内构建自己的 Google AI 聊天机器人
- 如何为成功的数据科学职业生涯构建自己的路线图
- 如何计算 DAX 中多个周期的移动平均
- 如何计算PPC营销中竞价的弹性
- 如何挑战自己的分析,避免他人挑战
- 如何使用 iPhone 与任何开源 LLM 免费聊天
- 如何为你的 GenAI 应用选择架构
- 如何选择最佳的机器学习部署策略:云端 vs. 边缘
- 如何使用 Python 的正则表达式清理杂乱的文本数据
- 如何清洗你的数据以应对现实生活中的数据科学项目
- 如何为 Polars DataFrame 上色
- 如何将分类模型与基线模型进行比较
- 如何使用 Taipy 在 Python 中构建多页面数据科学 Web 应用
- 如何使用Python将单一的HEX颜色代码转换为单色调色板
- 如何创建自定义Matplotlib主题并让你的图表从乏味变得惊艳
- 如何在 Tableau 中创建网络图
- 如何为Gmail创建强大的AI电子邮件搜索系统(使用RAG)
- 如何从文档中创建RAG评估数据集
- 如何创建成功的数据演示
- 如何为色盲人士创建可访问的图表
- 如何在BigQuery中创建RFM模型
- 如何在 Matplotlib 中创建自定义颜色调色板 — 离散与线性颜色图的解释
- 如何在数据科学职位申请中创造机会并获得成功
- 如何通过结合多模态信息创建强大的AI表示
- 如何从您的数据中创建强大的嵌入以供 AI 使用
- 如何创建精美样式的Streamlit数据框架,第1部分:使用Pandas Styler
- 如何创建漂亮的 Streamlit 数据框,第二部分:使用 AgGrid
- 如何使用卫星图像创建你自己的CV数据集:来自太空的野火
- 如何在Python中对面板数据进行交叉验证
- 如何通过提示压缩将RAG成本降低80%
- 如何处理时间序列中的异常值
- 如何交付成功的数据科学咨询项目
- 如何使用 FastAPI、Docker 和 GCP 部署机器学习解决方案
- 如何设计批处理
- 如何设计以数据为驱动的故事
- 如何设计更好的指标
- 如何在没有标签的情况下检测概念漂移
- 如何在卫星影像中检测洪水,案例研究:迪拜洪水
- 如何开发一个有效的AI驱动法律助手
- 如何在 Power Query 中动态限制数据导入
- 如何轻松部署本地生成式搜索引擎使用VerifAI
- 如何轻松为你的本地LLM设置一个简洁的用户界面
- 如何轻松使用Pandera验证数据
- 如何有效地使用Meta的图像分割模型:SAM 2
- 如何有效地使用亚马逊的新时间序列预测模型进行时间序列预测
- 如何高效逼近一个或多个变量的函数
- 如何轻松利用 OCR 和 GPT-4o mini 提取收据信息
- 如何通过 GPU 强化 Pandas
- 如何为神经网络的输出编码约束
- 如何使用Jackknife估计确保模型的稳定性
- 如何从单张图像中估计深度
- 如何评估任何语言中的多语言LLM
- 如何评估没有地面真实数据的RAG
- 如何评估你的预测
- 如何将 Stata “笔记本” 导出为 HTML
- 如何通过 REST API 暴露 Delta 表
- 如何使用 NetworkX 提取图形特征以进行机器学习
- 如何找到并解决有价值的生成性AI用例
- 如何为你的RAG找到最佳的多语言嵌入模型
- 如何在数字化世界中找到自我
- 如何在卫星数据上微调预训练的视觉变换器
- 如何预测层次化时间序列
- 如何使用任何监督学习模型预测时间序列数据
- 如何从任何文档中生成LLM微调的指令数据集
- 如何生成用于目标检测任务的合成图像
- 如何使用Open-Sora-Plan视频生成模型生成视频
- 如何获得数据科学研究生项目/实习
- 如何从 LLM 获取 JSON 输出:实用指南
- 如何在数据科学领域晋升
- 如何使用 GitHub API 获取拉取请求数据
- 如何开始你的数据科学职业之旅
- 如何在不感到停滞的情况下发展职业生涯
- 如何处理机器学习项目中的不平衡数据集
- 如何处理:时间序列的缺失数据
- 如何处理时间序列缺失数据
- 如何识别影响购买决策的因素
- 如何实现基于 Amazon EC2 的定制训练解决方案
- 如何使用 Autogen 或 LangGraph 实现 GenAI 代理
- 如何实现和测试 Phi3:微软强大的新一代大规模语言模型
- 如何在 Python 中同步和异步地实现 ChatGPT 与 OpenAI API
- 如何使用知识图谱和向量数据库实现图谱增强生成(Graph RAG)
- 如何在企业层面同时实施知识图谱和大型语言模型(LLMs)
- 如何实现最先进的掩码自编码器(MAE)
- 如何通过理解嵌入质量提升人工智能性能
- 如何在不到5分钟内提升任何提示(聊天界面与代码)
- 如何改善图表,以提升机器学习模型的性能
- 如何通过更好的采样参数改进LLM的响应
- 如何通过RAG提高LLMs
- 如何在不构建更大模型的情况下提高模型质量
- 如何将AI和数据科学融入到您的商业战略中
- 如何解释GPT2-Small
- 如何解释矩阵表达式 — 变换
- 如何持续发展为数据科学家
- 如何自学 AI(自学指南)
- 如何免费自学因果推理
- 如何为数据分析学习SQL
- 如何学习数据科学所需的数学
- 如何在2024年提升你的数据可视化技能
- 如何利用 SvelteKit、Skeleton 和 Chart.js 进行快速原型开发和高效执行
- 如何使用 Elastic (ELK) Stack 记录 Databricks 工作流
- 如何在 Google BigQuery 中进行低通滤波
- 如何构建一个 RAG 系统,以便轻松访问您的数据
- 如何在Python中制作高级蛛网图
- 如何通过多样性做出更好的决策
- 如何在 Python 中制作赛博朋克“暗黑模式”数据可视化
- 如何使用Python制作极美的图表
- 如何使用 Python 制作邻近地图
- 如何充分利用LLM生产数据:模拟用户反馈
- 如何使你的数据科学/机器学习工程师工作流程更高效
- 如何让自己作为数据科学家更具裁员免疫力
- 如何最大化你作为数据科学家的影响力
- 如何在 Pandas 中通过最近匹配合并数据框?使用
merge_asof
。 - 如何应对人工智能日益增长的社会足迹
- 如何作为数据科学家谈判薪资
- 如何作为数据科学家进行网络拓展
- 如何使用遗传算法优化推荐结果
- 如何在Tableau中按年叠加趋势线
- 如何在 Azure 数据工厂中并行化复制活动
- 如何在Python中使用假设检验进行A/B测试:一份全面指南 🚀
- 如何使用LOF算法进行异常检测
- 如何使用 SQLAlchemy ORM 执行批量插入/更新/更新或插入操作
- 如何执行LLM的幻觉检测
- 如何在 R 中使用 Python 执行超参数调优
- 如何在SQL中创建Pivot表
- 如何规划你在数据科学和机器学习领域的下一步职业发展
- 如何用 AI 练习数据分析师面试
- 如何为您的数据科学行为面试做准备
- 如何使用机器学习进行定价
- 如何修剪LLaMA 3.2及类似的大型语言模型
- 如何通过流失调查量化客户问题以便进行优先级排序
- 如何使用LLMs通过gRAG查询知识图谱
- 如何使用 Python 阅读和分析 GDAT 文件
- 如何使用 DuckDB 读取 OSM 数据
- 如何减少人工智能中的类别不平衡偏差?(通过谜语解释)
- 如何减少嵌入大小并提高RAG检索速度
- 如何减少Python在高负载任务中的运行时间
- 如何表示图结构 — 从 NumPy 到 NetworkX
- 如何在BigQuery中运行引导分析
- 如何使用ONNX运行Stable Diffusion
- 如何保障你的AI初创公司的产品战略
- 如何选择图中最具影响力的节点组合
- 如何在PPC营销中设置出价保护线
- 数据科学家关于个性化项目长期实验的指南
- 如何在2024年设置一个用于深度学习的多GPU Linux机器
- 如何通过机器学习解决一个简单问题
- 如何通过数学编程解决资产存储问题
- 如何专注于数据科学 / 机器学习
- 如何在2024年脱颖而出,成为一名数据科学家
- 如何在初级数据科学家中脱颖而出
- 如何在数据科学家面试中脱颖而出
- 如何在 Medium 上开始写数据科学博客
- 如何开始技术写作与博客写作
- 如何保持作为软件开发人员的相关性
- 如何使用 Python 布隆过滤器仅用 77MB 存储和查询 1 亿项数据
- 如何构建和组织一个 Streamlit 应用
- 如何在工业界成为一名成功的机器学习工程师
- 如何通过结合 Kafka 和 AI 防护栏取得 AI 成功
- 如何通过类方法增强你的 Python 类
- 如何从数据分析转向数据科学——来自大科技公司数据科学家的经验分享
- 如何使用约束编程解决优化问题
- 如何像贝叶斯一样应对周末测验
- 如何根据专业观众定制图表
- 如何简明扼要地讨论数据和分析
- 如何与PDF文件对话而不使用专有模型:CLI + Streamlit + Ollama
- 如何测试图形质量以提高图形机器学习性能
- 如何测试机器学习系统
- 如何思考在公司中使用信息与GenAI
- 如何在 SQL 中训练决策树分类器…
- 如何从零开始训练Vision Transformer(ViT)
- 如何在没有训练数据的情况下训练实例分割模型
- 如何从工程转型到数据科学
- 如何从物理学转型到数据科学:全面指南
- 如何转型进入数据科学领域——以及在数据科学领域内部的转型
- 如何调节完美的平滑器
- 如何将你的AI点子变成一个可扩展的产品:技术指南
- 如何在数据科学中提升技能
- 如何使用和测试WizardLM2:微软的新LLM
- 如何使用反门准则选择控制变量
- 如何在A/B测试不可用时使用因果推断
- 如何使用弹性网回归
- 如何使用可解释的 AI 工具
- 如何使用生成式AI和Python创建设计师虚拟数据集
- 如何使用混合搜索来优化LLM RAG检索
- 如何使用HyDE优化LLM的RAG检索
- 如何在Unity中使用LLM
- 如何创建一个LLM驱动的应用程序,将文本转换为演示文稿幻灯片:GenSlide——一步一步的指南
- 如何使用机器学习来指导设计决策并进行预测
- 如何在SQL中使用OpenAI ChatGPT API
- 如何使用 OpenAI 的定制 GPT 帮助你申请工作
- 如何使用 Python 内置装饰器显著提高性能
- 如何使用重新排序提高 LLM RAG 检索效果
- 如何使用 SQLAlchemy 异步进行数据库请求
- 如何使用结构化生成进行LLM作为裁判的评估
- 如何有效使用合成数据和模拟数据
- 使用 OpenAI 强大的新 Assistants API 进行数据分析
- 如何使用零样本分类进行情感分析
- 如何远程工作而不感到孤立
- 如何在 Python 中编写干净的代码
- 如何编写内存高效的 Python 类
- 我们如何优化全球集装箱分配问题
- 人类与人工通用智能源于下一个词的预测
- 使用MediaPipe进行2D和3D的人体姿势跟踪:Rerun展示
- 时间序列回归的混合模型
- 使用遗传算法进行超参数优化——动手教程
- MLOps — 使用MLflow和Hydra进行超参数调优
- 假设检验解释(我希望它是这样向我解释的)
- 我为“Read the Docs”流量分析构建了一个可重复使用的仪表板,使用了Vizro-AI
- 我构建了一款AI人类水平的游戏玩家
- 我编写了一个YouTube AI助手,提升了我的工作效率
- 我将区块链和人工智能结合起来生成艺术作品。接下来发生了什么?
- 我将Tiny Llama 3.2 1B微调成替代GPT-4o
- 我在 Matplotlib 的库中发现了一个隐藏的宝藏:Python 中的打包气泡图。
- 我发明了一种与AI对话的方式,既能保持隐私
- 我为谷歌Gemini制定了一个更好的测试计划,只用了30分钟
- 我花了96万美元成为一名数据科学家。这里有5个所有初学者必须知道的关键教训
- 我花钱对荷兰语考试进行LLM基准测试,这样你就不必花钱了。
- 我参加了人工智能认证课程。这是它让我学到的关于提示工程的知识。
- 我试用了数据分析 ChatGPT 插件 — 每个分析师的梦想还是伪装下的噩梦?
- 我曾经讨厌过拟合,但现在我已经彻底理解它
- 我并不总是数据科学家——我是如何进入这个领域的
- 如果世界末日来临,你有多大可能目睹这一切?
- 我正在用 Python 做 2024 年的“代码降临”——第1天
- 我正在做 2024 年 Advent of Code —— 第2天
- 我正在做2024年Python版的Advent of Code——第3天
- 我正在做 2024 年的圣诞编程挑战 — 第4天
- 使用OpenCV进行图像轮廓化
- 气候变化分析的图像数据收集
- 使用K均值聚类进行图像分割
- 图像到图像的翻译与FLUX.1:直觉与教程
- 声音图像:用AI创作令人惊叹的视听艺术
- 海平面上升对沿海住宅房地产资产的影响
- 实现 Power BI 语义模型的星型模式:逐步指南
- 使用Python实现凝聚型层次聚类
- 实现Anthropic的上下文检索以提升强大的RAG性能
- 在TensorFlow中实现卷积神经网络
- 实现生成性和分析性模型,创建和丰富RAG的知识图谱
- 使用 Neo4j 和 LangGraph 实现 GraphReader
- 实现“模块化RAG”与Haystack和Hypster
- 在TensorFlow(以及PyTorch)中实现神经网络
- 在 TPU 上实现顺序算法
- 从零开始实现简单神经网络的反向传播
- 在多页面应用中实现Streamlit-Authenticator
- 使用Python防护措施提高LLM输出可靠性
- 使用改进的嵌入模型将你的 RAG 上下文召回率提升 95%
- 改进的缓存技术使Streamlit仪表板性能提升了5000倍
- 使用 Markdown 改进 RAG 文档处理
- 使用机器学习提升商业表现
- 通过少量示例以无训练方式提升CLIP性能
- 使用Polars提高数据转换过程中的代码质量
- 提升代码质量:数组和DataFrame类型提示
- 提高生存模型的泛化能力
- 使用模型量化技术提升CPU上LLM推理速度
- 通过复杂推理提高 RAG 回答质量
- 我如何使用聚类技术改进分块并构建更好的RAGs
- 使用重排序器提升 RAG 性能
- 改善含有大量零值的对象(或细胞)计数分析
- 《为数据科学中的大语言模型辩护:ChatGPT能为你的数据科学事业做什么,不能做什么》
- 深入了解支持向量机(SVM)在线性和非线性分类与回归中的应用
- 将 LLM 聊天机器人集成到您的网页应用程序中,使用 OpenAI、Python 和 Shiny
- 轻松提高你回归模型的信任度
- 提高Transformer模型效率:通过优化注意力层
- 一目了然:你的图表差吗?
- 噪声中的信息
- 大型组织中的数据调和难题
- 检查神经网络模型在边缘部署中的表现
- 使用 LangChain 和 Chainlit 集成外部 API 与聊天机器人应用程序
- 将LLM代理与LangChain集成到VICA中
- 将微软的 GraphRAG 集成到 Neo4j 中
- 将多模态数据集成到大型语言模型中
- 集成文本和图像,进行更智能的数据分类
- 大型语言模型中的可解释特征
- 可解释的kNN(ikNN)
- 可解释的潜在空间:使用填充空间的向量量化
- 可解释的异常值检测:频繁模式异常值因子(FPOF)
- 机器学习中的权重正则化解释
- 相交多个 3D 线段(最近点)
- DSPy介绍:告别提示,迎接编程!
- 使用Langchain介绍LLM代理:当RAG不足以满足需求时
- 介绍ft-Q:通过特征级量化提升向量压缩
- 介绍层增强分类(LEC)
- 介绍马尔可夫决策过程,设置Gymnasium环境并通过动态规划方法求解
- 介绍n步时间差分方法
- 介绍 NumPy,第 1 部分:理解数组
- 介绍 NumPy,第 2 部分:数组索引
- 介绍 NumPy,第三部分:操作数组
- 介绍NumPy,第4部分:使用数组进行数学运算
- 介绍 Path-Swarm 和 Super-Swarm:下一代蜂群图
- 介绍Python类和数据类
- 介绍 Python 的 datetime 模块
- 介绍Seaborn对象
- 介绍语义标签过滤:通过标签相似性增强检索
- 介绍全新的Anthropic PDF处理API
- 推出新的Anthropic令牌计数API
- 介绍四格图与方形图:将数据方形化
- 在pandas中介绍时间序列
- 介绍tmap用于可视化和数据分析
- 介绍单变量样本推荐系统:如何在一个向量中描述客户行为
- 介绍 zeroCPR:寻找互补产品的一种方法
- 《利用混合整数规划优化航空旅行网络简介》
- Apache Iceberg简介
- Python中的因果推断与机器学习介绍
- 《气候变化的计算机视觉导论》
- 可解释聚类简介
- Kaggle简介及如何在Titanic竞赛中获得前7%的成绩
- 线性编程简介 — 第二部分
- 最大似然估计介绍
- 在 Markdown 中介绍 Mermaid 图表
- Python的多阶段镜像构建简介
- 目标贝叶斯假设检验介绍
- 强化学习简介及解决多臂赌博机问题
- 神经科学家空间分析细胞的入门(第1部分)
- 支持向量机简介——动机与基础
- TensorFlow的功能性API介绍
- 使用R进行回归的有限正态混合模型介绍
- JavaScript 中 async/await 的直观解释
- 直观的时间序列数据框过滤
- 观点推动创新,而非数据,iPhone创造者如是说
- 复杂写作仅仅是公式吗?
- Google的NotebookLM会颠覆播客行业吗?
- 少即是多?深度学习预测模型需要特征减少吗?
- LLM的表现是否由其基因编码预先决定?
- Matplotlib 仍然是最佳的静态图表绘图库吗?
- 多重共线性是否正在破坏你在市场营销组合建模中的因果推断?
- 开源是实现AI民主化的最佳途径吗?
- ReFT是我们所需要的一切吗?
- 你的数据是在提升你,还是在拖累你?
- 您的用户基础是在增长还是在缩小?
- Python中的等时线
- iTransformer:时间序列预测中的最新突破
- 终于是时候记住那些该死的分类指标了!
- ITT 与 LATE:在非完全遵守的实验中使用 IV 估算因果效应
- 我做过80多次数据科学面试——以下是有效的方法
- 我雇佣了三批数据科学实习生——这是我对获得实习机会的建议
- Jamba:全新的混合型变换器/马姆巴模型
- 一月是挑战自我学习新技能的时刻
- Jet Sweep:优化路线以访问每支NFL球队的主场
- 《铃儿响叮当与统计检验》
- 使用 AI 代理自动化职位搜索
- 共同学习奖励与策略:一个迭代的反向强化学习框架,带有排名合成轨迹
- 一个不太可能的企业家之旅
- “评判LLM法官”:LLM应用评估持续改进的双层评估(QA)框架
- 使用高级检索 LlamaPacks 启动您的 RAG 流水线,并通过 Lighthouz AI 进行基准测试
- K最近邻分类器解析:初学者的可视化指南与代码示例
- K最近邻回归器,解释:带代码示例的视觉指南
- KAN:它为什么以及如何工作?深入探讨
- 保持梯度流动
- 使用 DVC 的实验追踪功能来跟踪你的回测
- 让你的AI代理保持受控:跟踪、指标和日志的入门指南
- Keras 3.0 教程:端到端深度学习项目指南
- KernelSHAP在预测变量相关时可能产生误导
- 教授AI智能体记忆的关键洞察
- 机器学习中的欺诈预测项目关键角色
- 启动你的数据科学之旅——数据科学家入门指南
- 知识增强型代理在互动文本游戏中的应用
- 了解 Kolmogorov–Arnold 网络(KAN)
- Kolmogorov-Arnold Networks(KAN)用于时间序列预测
- Kolmogorov-Arnold Networks:神经网络领域的最新进展,简明解释
- 为什么你不需要JS来制作3D图表
- Label Studio定制化后端用于半自动化图像分割标注
- Lag-Llama:开源时间序列预测基础模型
- LangChain 的内置 AI 输出评估指标:它们有何不同?
- LangChain的父文档检索器 — 重新审视
- 语言作为一种通用学习机器
- 语言模型的训练与推理:从概念到代码
- 语言模型与空间推理:什么做得好,什么仍然糟糕,什么在改善中
- 大型语言模型在时间序列分析中的表现
- 大型语言模型,GPT-1 — 生成式预训练Transformer
- 大型语言模型,GPT-2——语言模型是无监督的多任务学习者
- 大型语言模型,GPT-3:语言模型是少样本学习者
- 大型语言模型变得更小了
- Lasso和Elastic Net回归解释:带代码示例的可视化指南
- 数据工程师领导职业指南
- 带领数据科学团队走向成功
- 使用小狗特征 web 应用探索 Shiny for Python
- 学习使用无代码工具可视化庞大的点云和3D网格
- 学习Transformer微调与Segment Anything
- 使用和谐网络学习离散数据:第一部分,基础知识
- 学习通用模型用于异常检测
- 学习排序 — 针对用户对的情境项目推荐
- 学会遗忘:为什么数据科学家和AI从业者应该理解机器遗忘
- 我的数据分析师第一年学习总结
- 最小二乘回归解析:带有代码示例的可视化指南(适合初学者)
- 没有基准?没有标准?没关系!一种敏捷聊天机器人开发的实验性方法
- 从教授 SQL 给非技术团队的经验中得到的教训
- 🚪🚪🐐 从蒙提霍尔问题中学习决策技巧
- 通过实践领导:作为数据科学经理的经验教训,以及为何我决定回归个人贡献者角色
- 从开发开源软件中学到的经验
- 让光明降临!扩散模型与重光照的未来
- 让我们通过数独了解一下计算机视觉
- 让我们用 JAX 重建 NanoGPT!(第1部分)
- 让我们重新审视不同库中的 case-when,包括新玩家:Pandas
- 让我们在Python中编写一个可组合的、易于使用的缓存包
- 使用 Python 线程提升你的编码技能
- 通过这10个有用的技巧,提升你的 Git 知识,浏览 Git 历史记录
- 提升你的 Pandas 技能,发掘这 15 个隐藏宝藏
- 利用 KeyBERT、HDBSCAN 和 Zephyr-7B-Beta 构建知识图谱
- 利用OpenAI工具调用:从零开始构建一个可靠的AI代理
- 在机器学习项目中利用Python继承
- 利用AI协同效应进行命名实体消歧
- 利用Gemini-1.5-Pro-Latest实现更智能的饮食
- 利用图表推进思维链推理
- 利用大语言模型提升商业效率
- 利用 Python Pint 单位处理包 — 第 1 部分
- 利用 Python Pint 单位处理包 —— 第2部分
- 利用小型LLMs增强检索增强生成(RAG)
- 基于词典的情感分析使用R语言
- 逐行复现GPT-2:第一部分
- 逐行分析,让我们重现 GPT-2:第2节 — 硬件优化
- 一行行地复现GPT-2:第3节 — 训练
- 线性代数 5:线性无关
- 线性注意力就是你所需要的一切
- 线性判别分析(LDA)
- 产品分析中的线性优化
- 线性规划:带分支定界的整数线性规划
- 线性规划优化:基础
- 线性规划优化:单纯形法
- 线性规划:库存切割问题
- 线性回归与因果结论
- 线性化注意力
- LingoNaut语言助手
- 通用语——基于实体感知的机器翻译方法,用于知识图谱上的问答
- 链表 — 数据结构与算法(面向数据科学家)
- lintsampler:一种快速从任何分布中获取随机样本的新方法
- 使用FFmpeg增强数据讲述的实时图表
- Llama-2与Llama-3:模型间的井字游戏对决
- Llama 是开源的,但为什么?
- LLaVA:一个开源的GPT-4V(ision)替代方案
- LLM代理揭秘
- LLM代理——直观且详尽地解释
- LLM代理、文本向量化、进阶SQL及其他我们最新作者的必读文章
- LLM对齐:基于奖励的方法与无奖励的方法
- LLM应用、关键数据技能、多代理AI系统及其他七月必读文章
- LLM 评估、AI 副项目、用户友好的数据表格及其他十月必读
- LLM评估技能很容易掌握(但实践起来成本高昂)
- LLM 微调 — 常见问题解答
- LLM驱动的半结构化和无结构文档解析与分析
- LLM 路由 — 直观且详尽的解释
- LLM 对 LLM:Codenames 比赛
- LLMOps — 使用BentoML提供Llama-3模型服务
- LLMs、AI代理、生成性AI的经济学以及其他八月必读文章
- 从零开始学习 LLMs 和 Transformer:解码器
- 大语言模型比家猫更笨
- 为什么LLMs不适合编程
- 为什么LLMs不适合编码 — 第二部分
- 2024 年用于编程的 LLM:价格、性能与最佳之争
- LLMs 为每个人:在 Google Colab 上运行 HuggingFace 文本生成推理
- 每个人的 LLM:在 Google Colab 中运行 LLaMA-13B 模型和 LangChain
- LLMs的陷阱
- LLMs.txt 解析
- 你的服务器在自托管LLM时能承受多少压力?
- Mac上的本地LLM微调(M1 16GB)
- 本地 RAG 从零开始
- Rust中的LOESS
- 面包屑日志:仅显示导致错误的日志
- 为什么你的服务工程师需要一个聊天机器人:故障排除的未来
- 逻辑回归解析:带代码示例的可视化指南,适合初学者
- 长格式视频表示学习(第1部分:视频作为图)
- 长篇视频表示学习(第二部分:视频作为稀疏Transformer)
- 长时视频表示学习(第三部分:长时自我中心视频表示学习)
- 长短期记忆(LSTM)—— 改进 RNNs
- 在你的苹果硅芯片MacBook上进行LoRA微调
- 理解LoRA 第一部分:探索内在维度
- LoRA:通过不进行微调,彻底改变大型语言模型的适配方式
- 低代码数据连接器和目标
- 低质量图像检测—第一部分
- 月球陨石坑检测:太空中的计算机视觉
- 机器学习算法作为空间之间的映射:从支持向量机(SVM)到流形学习
- 我在数据科学家面试中关注的机器学习基础知识
- 机器学习实验做得对
- 商业中的机器学习:数据科学课程不会教你的5件事
- 欺诈检测中的机器学习:入门指南
- GCP上的机器学习:从Notebook到数据流水线
- 初学者的机器学习操作(MLOps)
- 使用Optuna进行机器学习优化
- Maixtchup:使用 Mergekit 创建你自己的专家混合模型
- 让指标真正有意义
- 从软件工程师转型为机器学习工程师
- 从 Pandas 到 PySpark
- 使因果发现能够在现实世界的商业环境中应用
- 使用LangProp让LLM写出越来越好的自动驾驶代码
- 使用大型语言模型使新闻推荐变得可解释
- 外出邮件很无聊:用生成式 AI 让它们更生动
- 让文本数据准备好供AI使用
- 为机器学习中的测试驱动开发辩护
- Mamba:SSM、理论及在Keras和TensorFlow中的实现
- 使用 Terraform 和本地 yaml 文件管理开发和生产环境
- 使用VBA管理数据透视表和Excel图表
- 很多文章告诉你 Python 技巧,但很少有人告诉你为什么。
- 基于地图匹配的车速预测
- 绘制奥斯卡获奖者的连接关系
- 绘制宝可梦世界:基于栖息地的遭遇网络分析
- 市场篮分析:完整项目
- 使用高效用项集挖掘的市场篮子分析
- 营销组合模型(MMM):如何避免偏差的渠道估算
- 马尔可夫链蒙特卡洛:一劳永逸的简化解释
- 机器人学中的马尔可夫决策问题
- Marlin:接近理想的4位大规模语言模型推理速度
- 巨大的能源需求驱动着巨大的GPU赋能AI
- 在开始使用 AI 代理之前掌握机器人:使用 Python 创建 Mastodon 机器人简单步骤
- 6分钟掌握分布图
- 精通机器学习:4个分类模型简单易懂
- 掌握这项数据科学技能,你就能进入大科技公司工作——第一部分
- 精通 AI 部门重组:来自前线的经验教训
- 掌握 Airflow 变量
- 掌握“背面纸条数学”将使你成为更好的数据科学家
- 精通Python中的数据流
- 掌握数据可视化:你需要知道的实用技巧
- 精通GenAI机器学习系统设计面试(2):设计ChatGPT记忆功能
- 掌握GenAI机器学习系统设计面试:原则与解决方案概述
- 精通 Git:高效版本控制的三种关键工作流
- 精通 K-Means 聚类
- 精通 Python 中的市场营销组合建模
- 掌握模型不确定性:深度学习中的阈值技术
- 视频中的物体计数
- 精通RAG系统:从基础到高级,通过战略性组件评估
- 精通样本大小计算
- 🪜 精通辛普森悖论——我的因果关系入门
- 掌握SQL优化:从功能性到高效的查询
- 精通统计检验(第二部分)
- 精通 t-SNE:理解和在 Python 中实现的综合指南
- 掌握Python丰富图表库的多样性与深度(附代码)
- 精通CatBoost的不确定性
- 数据科学家面试中我关注的数学知识
- 爱的数学:使用 Python 优化婚礼宴会厅座位安排
- Matplotlib:通过 rcParams 让你的绘图生活更轻松
- 最大化节省未使用的 Fabric 容量
- 通过缓存最大化生产中的AI效率:一种成本高效的性能提升方案
- 最大化 Python 代码效率:克服常见性能障碍的策略
- 最大化稀缺AI资源的利用:一种Kubernetes方法
- 衡量AI的创造力:视觉字谜
- 使用 dbt_set_similarity 测量跨产品采纳情况
- 衡量生产问题对开发团队的成本
- 衡量你市场营销活动的内在因果影响
- 认识 Git Stash:你未完成代码的秘密宝箱
- 认识NiceGUI:你即将成为最爱的Python UI库
- 内存高效嵌入
- 使用mergekit合并大语言模型
- 使用 SLERP 合并标记以加速 LLM 推理
- Meta Llama 3 优化的CPU推理与 Hugging Face 和 PyTorch
- 在PySpark中生成合成描述性数据
- 如何评估搜索相关性和排名
- 评估分类机器学习模型的指标
- 数据中的微服务与单体架构
- MIDI文件作为训练数据
- 生成对抗网络(GAN)的极小极大优化设计
- 最小可行机器学习模型(MLE)
- 时间序列中的缺失数据:机器学习技术
- 缺失值填充,解释:适合初学者的视觉指南与代码示例
- Mistral 7B解析:迈向更高效的语言模型
- Mistral AI与Meta:对比顶级开源LLM
- Mistral-NeMo: 通过量化Minitron减少4.1倍大小
- Mistral与Mixtral:比较7B、8x7B和8x22B大语言模型
- 高性能时间序列预测的KAN专家混合模型
- 机器学习初学者应该阅读论文
- 机器学习工程 101:对错误“DataLoader worker (pid(s) xxx) exited unexpectedly”的全面解释
- ML变形:通过串联ML模型实现优化结果
- 将简单线性回归剖析到最基础的层面
- MLOps — MLflow Pipelines 的温和入门
- MLOps — 使用PyTest进行数据验证
- MMM:用于市场营销组合建模和广告支出回报率(ROAS)的贝叶斯框架
- 使用FastAPI、Azure和Docker进行模型部署
- 模型漂移介绍与概念
- 模型评估与任务评估
- 使用信用卡欺诈数据的模型可解释性
- 使用MLflow、Azure和Docker进行模型管理
- 模型选择:类别平衡 第1部分
- 构建5个机器学习模型 第二部分
- 模型验证技术解析:带有代码示例的可视化指南
- 使用马尔可夫链建模 DAU
- 使用马尔可夫链建模依赖随机变量
- 用神经ODE建模动态系统:实用指南
- 加泰罗尼亚语言灭绝建模
- 模型、MLFlow 和 Microsoft Fabric
- 现代企业数据建模
- 大型语言模型的 MOE 和 MOA
- MOIRAI-MOE:通过专家混合技术升级MOIRAI以增强预测能力
- MOIRAI:Salesforce的时间序列预测基础模型
- Moirai:面向通用预测的时间序列基础模型
- 塑造想象力:使用 AI 创建新的 3D 可打印物体
- MOMENT:一个基础时间序列预测、分类、异常检测模型
- 使用 Snowflake 的数据指标函数监控数据管道
- 监控 Amazon EventBridge 规则
- 监控 Amazon Kinesis 数据流
- 单声道到立体声:AI如何为音乐注入新生命
- 使用 Depth Anything V2 进行单目深度估计
- 蒙特卡洛方法解析
- 蒙特卡罗方法解决强化学习问题
- 使用统计测试提升多变量EDA的稳健性
- 大多数数据质量项目在启动之前就已经失败。原因如下。
- 我测试了前沿的多模态LLM在图表解读技能上的表现
- 多代理即服务——一位资深工程师的概述
- 使用 Hugging Face 代码代理的多代理 RAG 系统
- 多智能体系统101
- 使用 Keras 3 进行多框架 AI/ML 开发
- 多GPU微调Llama 3.1 70B模型,采用FSDP和QLoRA
- 多头注意力 — 形式化解释与定义
- 多头自注意力 — 手动实现
- 没有检索模型构建RAG是一个可怕的错误
- HuggingFace中的多选问答
- 多层感知器,解释:带有迷你二维数据集的视觉指南
- 使用lme4的多层次建模:分析电子商务销售
- 多语言RAG、算法思维、异常值检测与其他问题解决亮点
- 商业应用的多模态AI搜索
- 多模态嵌入:介绍
- 多模态大语言模型与苹果的MM1
- 多模态模型 — 可以“看”和“听”的LLM
- 多模态RAG — 直观且详尽的解释
- 多模态 RAG:用 AI 处理任何文件类型
- 多项式朴素贝叶斯分类器
- 统计学必知:双变量正态投影解析
- 必知的 Hive 大数据处理技术
- 我的30天地图挑战2023
- 作为一名数据科学家的7个收入来源
- 我的通勤时间超过四小时。每单程。
- 我的《前后处理测试简明指南》
- 我在 DuckDB 中的第一亿条数据(行)
- 我掌握 SAP 数据模型的第一步
- 我的自由职业经历:作为一名地理数据科学家在 UpWork 上的 10 个月
- 我给想成为数据科学家的人的诚实建议
- 我一年后再次被聘用的经历……第一部分
- 我的Medium之旅作为数据科学家:6个月,18篇文章和3,000个粉丝
- 我的每周日程安排作为高级数据科学经理
- N-BEATS — 第一个在时间序列预测中有效的可解释深度学习模型
- N-HiTS — 使深度学习在时间序列预测中更加高效
- N-of-1 试验与分析你自己的健身数据
- 完美应对机器学习设计面试
- 朴素贝叶斯,清晰解释
- 命名实体识别揭秘——必备指南
- 导航成本与复杂性:思维混合LLM级联揭示了高效部署大语言模型的路径
- 在数据马拉松中导航数据:见解与指导 [NeurIPS’23]
- 数据科学导航:B2C与B2B分析
- 2024年数据科学职位导航:角色、团队与技能
- 使用 NetworkX 浏览网络:Python 中图形的简短指南
- 导航慢变维度(SCD)与数据重述:全面指南
- 探索软演员评论家强化学习
- 2024年人工智能景观的探索:趋势、预测与可能性
- 探索未来
- 导航最新的生成式AI公告——2024年7月
- 穿越迷宫:数据架构指南
- 探索新的LLM代理和架构类型
- 探索作为数据科学家的现实
- 探索LLM代理的世界:初学者指南
- 驾驭数据平台的成长痛点:从数据混乱到数据网格的路径
- 速度需求:cuDF Pandas vs. Pandas
- 速度需求:Streamlit 与 Functool 缓存
- NeMo Guardrails:终极开源LLM安全工具包
- 使用 🤗 Accelerate 进行捷克文档中的NER任务,基于XLM-RoBERTa模型
- 网络分析、扩散模型、数据湖仓及更多:我们近期的最佳深度探讨
- 网络分析示意图:传播公共卫生信息的指标
- 神经网络(MLP)在时间序列预测中的实践应用
- 神经网络用于灵活的多变量预测
- 周期性函数的神经网络
- 深度学习图解,第1部分:神经网络是如何工作的?
- Neural Speed:针对4位大型语言模型的CPU快速推理
- 神经形态计算——一个更具前沿性、更环保的人工智能
- 用于训练物理(与计算机基础的)人工神经网络的新方法
- 下一代代理:释放动态上下文的力量
- 从你的 Rust 代码访问云文件的九个规则
- 在浏览器中运行 Rust 的九条规则
- 在嵌入式系统上运行Rust的九条规则
- 在WASM WASI上运行Rust的九条规则
- 九个 Rust Cargo.toml 的 Wat 和 Wat Not
- 图解NLP,第1部分:文本编码
- NLP插图,第2部分:词嵌入
- NLP:房地产出租房源的文本摘要与关键词提取——第1部分
- 无代码 GenAI 代理工作流编排:带本地 Mistral AI 模型的 AutoGen Studio
- 没有GPU,没派对:使用Vertex AI自定义作业微调BERT进行情感分析
- 不让任何标签被遗漏:层次化类别的替代编码方法
- 不,你不需要一个新的微服务架构
- 2024年诺贝尔奖:人工智能突破大奖
- 没有人能把AI逼进角落!
- 非线性:线性回归能与梯度提升竞争吗?
- 非响应偏差:沉默的大多数如何决定了一场选举,并让一个深受喜爱的出版商陷入困境
- 归一化折扣累积增益(NDCG)——终极排名度量标准
- 不是所有HNSW索引都一样
- NuCS:一个用于研究、教学和生产应用的约束求解器
- Numpy 的随机选择在 Go 语言中的实现
- 自定义物体检测:探索 YOLO 基本原理并在自定义数据上训练
- 物体检测基础 — 综合初学者指南(第一部分)
- 目标检测:COCO和YOLO格式,以及它们之间的转换
- 关于LLM、梯度和量子力学
- OLAP 已死——还是它并未死?
- 忽略变量偏差
- OMOP与DataSHIELD:提升隐私保护医疗分析的完美匹配?
- 在Power BI中处理预计算层次数据
- 关于 Hopfield 网络
- 关于雅各布·伯努利、大数法则以及中心极限定理的起源
- 关于 AWS Trainium 和 Inferentia 的可编程性
- 关于四舍五入或分箱数据的统计分析
- 告别令人困惑的 Python 错误信息
- 使你成为更优秀数据科学家的一个心态转变
- 知识图谱中的本体推理
- 无监督的LLM评估
- 开源数据可观察性与Elementary — 从零到英雄(第一部分)
- 开源模型、温度缩放、重排序等:不要错过我们近期的 LLM 必读文章
- 打开人工大脑:用于LLM检查的稀疏自编码器
- OpenAI 嵌入技术与聚类分析在调查分析中的应用 — 操作指南
- OpenAI o1:这是将重塑我们所知道的每个知识领域的神秘力量吗?
- OpenAI 提示缓存监控
- OpenAI 与开源多语言嵌入模型
- 打开潘多拉的盒子:征服数据云迁移和新领域项目中的7个“邪恶使者”
- 使用 Elementary 实现开源数据可观测性——从零到英雄(第二部分)
- 运营数据与分析数据
- 优化:用最简单的术语解读排队理论
- 优化定价和促销中的非线性处理效应
- 使用线性求解器优化神经网络
- 非线性函数的优化通过分段线性化
- 使用替代模型进行优化,通过符号回归实现
- 线性规划简介 — 第一部分
- 在Amazon SageMaker实时推理上优化Mistral7B的部署
- 通过权重量化优化深度学习模型
- 优化云端Spot市场中的AI开发实例类型选择
- 使用强化学习优化库存管理:一个实用的Python指南
- 优化营销活动:使用预算化的多臂赌博机
- 使用Python优化数据分析的内存消耗——从400到0.1
- 实践中的多任务学习模型优化
- 优化Pandas代码:操作顺序的影响
- 使用Aho-Corasick算法优化Spark中的Sigma规则
- 在免费的T4 GPU上优化小型语言模型
- 用线性编程优化超级碗方格游戏
- 优化PySpark中的数据处理性能
- 针对变长输入序列优化Transformer模型
- 最优分配与匈牙利算法
- 在Azure中编排动态时间序列管道
- 组织的机器学习投资是(或应该是)渐进式的
- 在工具类中组织 Python 函数
- ORPO:无监督微调(SFT)步骤的偏好优化
- 在医疗健康领域克服LLM挑战:生产环境中的实际开发策略
- 克服保护共享生成式AI环境中的安全挑战
- 访问之战:克服(无意的)数据监狱
- 过采样与欠采样,详解:带有迷你二维数据集的视觉指南
- 在 Python 中覆盖对象:棘手、危险且强大
- P-Companion:亚马逊的多元化补充产品推荐原则框架
- 将你的 TypeScript 客户端打包成 Python 后端
- PAGA 解释:单细胞数据的图形抽象
- Pandas 列:括号索引(df[‘x’])与点语法(df.x)
- 数据工程师的 Pandas
- Pandas: 从杂乱到优雅
- Pandas索引和标题,你曾感到困惑过吗?
- Pandas:我参与贡献一个重要开源项目的经历
- Pandas vs. Polars — 该是时候切换了吗?
- 论文回顾 — 用于软件开发的交互式代理
- 论文解析:Attention Is All You Need
- 论文解读:神经风格迁移
- 论文解读:U-Net
- 论文解析:Vision Transformer(ViT)
- 大语言模型时代评估的范式转变
- Parquet 文件格式:你需要了解的一切
- 使用LayoutLM和Label Studio解析您的发票
- 粒子群优化
- 在Python Pytest中将函数传递到测试文件
- Python中的路径表示
- 爪子、利爪和代码:6 个必知的 Python 示例
- 在Python中使用PCA和K-Means进行交通数据分析
- Pearson与Spearman相关性:在变量之间找到和谐
- 受感知启发的图卷积用于音乐理解任务
- 使用特征子集更有效地执行异常值检测
- Spark 流处理中 Sigma 规则检测的性能洞察
- 高性能IPv4范围Spark连接
- 使用LangChain和LLM进行客户分析
- 追求p99的危险
- 从零开始的置换特征重要性
- Phi-3 与高度高效的 iPhone LLMs 开始
- 哲学与数据科学 — 深入思考数据
- 带强制函数的物理信息神经网络
- 物理启发的神经网络:面向应用的指南
- physipy:使Python具备单位意识
- 皮埃尔-西蒙·拉普拉斯、逆概率和中心极限定理
- 在你的公司中推销(AI)创新
- 面向产品的机器学习:数据科学家的指南
- 人工智能深度网络模型是否正在趋同?
- 与LLM一起玩20个问题游戏
- 请让这个AI的准确性更低一点
- 在 R 中使用 Google Earth 绘制高尔夫球场
- 使用PointNet和PyTorch3D进行点云分类
- Polars + NVIDIA GPU教程
- 策略梯度方法在强化学习中的应用
- 策略梯度:RLHF的基础
- 卷积神经网络(CNN)的池化层
- 将Twitter的异常检测算法移植到Swift
- 视觉变换器的位置嵌入解析
- 统计功效分析,解密
- AI代理与CrewAI的强大协作
- 通过让LLMs访问库,利用自然语言请求进行强大的数据分析和绘图
- 使用CUPED和双重机器学习为实验赋能
- 产品分析师的实用计算机模拟
- 产品分析师的实用计算机模拟
- 面向产品分析师的实用计算机仿真
- 数据分析与预处理实用指南
- 使用潜在狄利克雷分配(LDA)进行主题建模的实用指南
- Polars的实用入门
- Pre-Commit & Git 钩子:自动化高质量代码
- 精确比较地理区域与GeoPandas
- 使用线性回归预测房价(Python实现)
- 预测概率解释:带有代码示例的可视化指南,适合初学者
- 使用R时间序列模型预测芝加哥出租车出行次数 — BSTS
- 我如何预测自1916年以来的每一场选举
- 使用LLM预测人道主义数据集的元数据第二部分——微调的替代方法
- 使用Python预测人口下降
- 预测不可预测的未来 🔮
- 使用GLOP进行预测性营销组合建模:完美的摇酒器
- 预测能力分数:计算方法、优缺点及JavaScript代码
- 每个人的偏好对齐!
- 主成分分析 — 实操教程
- 主成分分析简明教程:逐步指南
- Python 中的 PRISM 规则
- 概率数据结构解码:提升现代计算性能
- 概率分布:泊松分布与二项分布
- 可能是展示多对多比例关系的最佳数据可视化方式
- 使用大语言模型处理Pandas数据框
- 产品准实验:当标准A/B测试不可行时的统计学技术
- 生产化GenAI代理:通过自动化测试评估工具选择
- 在 Django 中生产化 LLM RAG 应用 — 第一部分:Celery
- 使用Prefect、Weave和RAGAS实现RAG应用的生产化
- 在Python中专业地可视化数据分布
- 使用Nsight Systems进行CUDA性能分析:一个Numba示例
- 使用CrewAI代理编程Arduino
- LLMs 中的提示缓存:直觉
- 提示工程、AI代理和LLMs:启动新一年的学习
- 认知灵活性的提示工程
- 编程任务的提示工程
- 提示工程:技巧、方法与未来发展
- 像数据科学家一样构建提示:使用DSPy进行自动提示优化和测试
- promptrefiner:使用GPT-4为你的本地LLM创建完美的系统提示
- 倾向得分匹配是因果推断的基石
- 我是如何使用AlphaFold预测突变对蛋白质相互作用的影响
- 近端策略优化(PPO):大语言模型对齐的关键
- Proxy SHAP:通过更简单的模型加速可解释性
- Python中的公共交通可达性
- 推动强化学习的边界:将基础模型(如LLMs和VLMs)整合到强化学习中
- PyEnv & Poetry 教程:终极数据科学设置
- PySpark解析:处理读取CSV和JSON文件时的无效记录
- PySpark 解释:Delta 表的时间旅行查询
- PySpark详解:Delta表
- PySpark 解析:创建和填充 DataFrame 的四种方式
- PySpark 解析:
explode
和collect_list
函数 - PySpark 解析:InferSchema 问题
- PySpark 解析:用户定义函数
- Pytest Mocking备忘单
- Python 与下划线 (_)
- MkDocs中的Python代码游乐场
- Python 并发 —— 数据专业人员的脑力友好指南
- Python 无论你住在哪个国家,都能知道你的假期
- Python 数据分析:我们了解现代艺术家的哪些信息?
- Python 装饰器非常有用,但什么时候使用它们呢?
- Python + Google Earth Engine
- Python在地球科学中的应用:一项必备技能
- Python 列表推导式不仅仅是语法糖
- Python可能是你最好的PDF数据提取工具
- Python 十亿行挑战——从 10 分钟到 4 秒
- Python Poetry —— 最佳数据科学依赖管理工具?
- Python AI学习快速入门指南
- Python Set 确实比 List 快:是真的吗?
- Python 到 Rust:发现为什么枚举是必用特性
- Python “元组+”:具名元组
- Python 类型提示:可调用语法简介
- Python水质 — 基线分类模型
- Python 最强大的装饰器
- Python的并行范式转变
- PyTorch和MLX在Apple Silicon上的应用
- PyTorch入门 — 进入非线性函数
- PyTorch简介 — 训练计算机视觉算法
- PyTorch原生FP8数据类型
- PyTorch 的优化器不够快。试试这些优化器吧
- PyTorch Tabular:一项评测
- QLoRA — 如何在单个GPU上微调大型语言模型(LLM)
- 使用卫星影像量化野火的烧毁区域
- 量化战略分类问题的复杂性和可学习性
- 量化、线性回归与 AI 硬件:我们最新的深度探索
- 使用 Bitsandbytes 对 Llama 3 8B 进行量化以保持其准确性
- 量化的Mistral 7B与TinyLlama在资源受限系统中的比较
- 量化神经网络模型
- 量化 AI 巨兽
- 人工智能模型权重的量化
- 使用Python进行量子机器学习:核方法与神经网络
- 量子力学与PCA相遇:一种(不)意外的融合
- PostgreSQL:仅为普通人优化查询
- QueryGPT — 利用生成式人工智能用自然语言查询你的数据
- 问答系统:主要架构概览
- Rabbit 的新 AI 设备可以通过使用应用程序为你“做任何事情”——但它究竟是如何工作的呢?
- AI在爱情(和战争)中公平吗?
- 数据工程中的激进简化
- RAG 101:分块策略
- RAG 效率、自学技巧、人工智能的商业化及其他1月必读
- RAG评估使用Ragas
- RAG:基于两个索引的混合搜索
- 在你的笔记本电脑上构建并运行你自己的 RAG:ColBERT + DSPy + Streamlit
- RAGOps 指南:构建和扩展检索增强生成系统
- 如何通过查询路由构建有用的RAG(检索增强生成)。
- Rainbow:深度Q网络的多彩进化 🌈
- 随机森林解析:带有代码示例的视觉指南
- 随机漫步是奇异且美丽的
- 排名基础:点对、成对、列表
- 在Python中栅格化矢量数据 — 乐高地图
- Lyft的真实产品数据科学家面试问题:来自GlassDoor的汇编
- 基于使用量的API计费和计量的实时分析解决方案
- 实时异常检测用于质量控制
- 使用 MediaPipe 进行实时手部追踪和手势识别:Rerun 展示
- 实时Twitch聊天情感分析与Apache Flink
- 真实世界的应用案例:使用 Tabnet 和 Optuna 进行服务利用率预测
- 使用马尔可夫链推理不确定性
- 推理作为驱动法律论证的引擎
- 重建让我获得数据科学家职位的作品集
- 从零开始重建PyTorch(支持GPU和自动求导)
- 循环神经网络:序列建模简介
- 递归 — 数据结构与算法为数据科学家
- 递归在Python中的解密
- 使用阻塞分割减少时间序列交叉验证中的偏差
- 减小AI模型的尺寸
- 减少 Docker 镜像大小(大型语言模型,第 2 部分)
- 减少为大语言模型提供服务的Docker镜像大小(第一部分)
- 重构LLM“与数据对话”:引入LLM辅助数据配方
- 强化学习101:构建一个RL智能体
- 强化学习 101:Q 学习
- 用强化学习彻底改变大数据集的特征选择
- 物理中的强化学习:常微分方程和超参数调整
- 针对LLM的人类反馈强化学习(RLHF)
- 强化学习:深度 Q 网络
- 强化学习,第一部分:简介与主要概念
- 强化学习第二部分:策略评估与改进
- 强化学习,第三部分:蒙特卡罗方法
- 强化学习,第四部分:蒙特卡洛控制
- 强化学习,第5部分:时间差学习
- 强化学习,第6部分:n步自举法
- 强化学习,第7部分:值函数逼近简介
- 强化学习,第8部分:特征状态构建
- 强化学习:从自动驾驶汽车到自动驾驶实验室
- 使用Llama3模型进行关系抽取
- 使用Python去除拉曼光谱中的尖峰:一步步指南
- 在Excel中进行报告可能正在比您想象的还要更多地损害您的业务——以下是如何修复它...
- 使用Huggingface Transformers进行RAG管道中检索优化的重排序
- 解决 Python 中的循环导入问题
- 负责任的LLMOps
- 重新思考 LLM 基准:衡量超越训练数据的真正推理能力
- 重新思考统计显著性
- 重温Karpathy的《计算机视觉和AI的现状》
- 用AI彻底改变网页浏览
- 利用人工智能革新烹饪体验:介绍FIRE(Food Image to REcipe生成)🔥
- 我的职业转型:我是如何从电气工程转行到数据工程的
- RFM细分:释放客户洞察
- 物理动力学系统的强化学习:一种替代方法
- RLAIF:来自AI反馈的强化学习
- 成为数据科学家的路线图,第一部分:数学
- 成为数据科学家的路线图,第2部分:软件工程
- 稳健的独热编码
- 数据科学家的鲁棒统计学 第一部分:中央趋势与离散度的韧性度量
- 稳健统计方法:数据科学家的第二部分——变量之间关系的稳健度量
- ROI崇拜可能对商业不利
- 卷起袖子:9个你应该探索的数据与机器学习项目示范
- 在 RAG 驱动的应用中的路由
- 使用 vLLM 运行和提供服务给更快的 VLM,如 Pixtral 和 Phi-3.5 Vision
- 使用 Apple 硬件运行 LLM 推理
- 在消费级硬件上运行Mixtral-8x7B并进行专家卸载
- 在单个 GPU 上运行 SOTA 7B 参数嵌入模型
- 使用计算机视觉评估跑步效率:与埃利乌德·基普乔格的对比分析
- 私人运行大型语言模型
- 在树莓派上运行本地LLM和VLM
- 本地运行LLM比你想象的更有用且更简单
- 在较低显存GPU上运行PixArt-Σ/Flux.1图像生成:Python简短教程
- 在容器内运行RStudio
- 使用本地文档运行STORM AI研究系统
- 在QGIS中进行可视性分析
- 使用Llama Guard 2保护您的LLM聊天机器人
- 利用因果图保护需求预测
- SageMaker 与 Vertex AI 在模型推理方面的对比
- SAM:Segment Anything Model
- 从多变量分布中采样:从统计模型到生成模型
- 卫星如何看见不可见的熔岩流和活跃的野火?(Python)
- 使用引导生成法构建 LLM 应用,节省时间和精力
- 高效快速保存 Pandas DataFrame — Parquet 与 Feather 与 ORC 与 CSV
- ChatGPT 并不总是能理解 SQL,但这个 Python 工具可以
- 可扩展的文档OCR管道,使用AWS
- 唇动同步仅需规模数据?
- 扩展你的RAG:基于Rust的LanceDB和Candle索引管道
- 使用 SOLID 原则扩展你的机器学习项目
- 提升生产力:利用 AWS 生成 AI 在几秒钟内总结会议记录
- 像您所期望的那样扩展 AI 模型
- 语言模型的规模定律
- 扩展单义性:Anthropic迈向可解释和可操控LLMs的一步
- 数据缩放解释:带有代码示例的初学者可视化指南
- 将RAG从概念验证(POC)扩展到生产
- 科学家们认真研究大型语言模型是否能模拟人类思维
- Scikit-learn 可视化指南:让模型“开口说话”
- Seamless:深入解析Meta最新开源翻译模型套件
- 无需重启管道,Delta Live Tables 中嵌套 JSON 和架构演化的无缝解析
- 眼见为实 — 深度伪造及其如何扭曲真相
- 在大语言模型中看到我们的倒影
- Segment Anything 2:秘密武器是什么?(深度学习者指南)
- 使用 PaliGemma 对卫星图像中的水体进行分割
- 自注意力句子嵌入在推荐系统中的应用
- Self-Instruct框架,解释
- 自助式机器学习与关系型深度学习
- 为什么基于位置的分块会导致 RAG 性能差?
- 为人民而建,由人民主导的语义层
- 使用AI 😊🌍🚀开发一个支持50多种语言的表情符号语义搜索引擎
- 使用k-Means算法进行遥感影像的语义分割
- 语义信号分离
- 语义压缩文本以节省 LLM 成本
- 未观察到的混杂因素的敏感性分析
- 精通传感器融合:基于 KITTI 数据的 LiDAR 障碍物检测 — 第一部分
- SentenceTransformer:一种计算句子嵌入的模型
- 情感分析模板:一个完整的数据科学项目
- SeqRAG:为我们所有人服务的智能体
- 顺序测试:低量A/B测试的秘密武器
- 使用 vLLM 同时服务多个 LoRA 适配器
- 在不到10分钟内设置一个类似ChatGPT的本地界面+副驾驶
- 在15分钟内设置一个基于CPU的本地LLM和聊天UI
- 在 AWS 私有环境中使用 Terraform 设置 Pypi 镜像
- 设置 Docker 化的 Python 环境 — 优雅的方式
- 设置一个Docker化的Python环境——硬方法
- 设置和监控 RDS Proxy
- 使用 AWS S3 设置自动化模型训练工作流
- 在 EC2 上设置带 GPU 支持的 PyTorch,无需预配置的 AMI
- 机器学习中数据泄漏的七个常见原因
- 使用 Plotly 创建专业可视化的七个关键特性
- 从数据科学到应用的七项必备技能
- Shapley值清晰解释
- 共享最近邻:一种更强大的距离度量
- 波涛汹涌:开源LLMs相较于闭源LLMs的竞争优势
- 简洁而甜美:通过约束性思维链提升LLM表现
- 最短路径算法:如何利用数据进行导航和优化
- 你应该成为数据科学家、数据分析师还是数据工程师?
- 作为数据科学家,你应该加入FAANG还是创业公司?
- 你是否应该在未来十年学习如何编程?
- 你应该从VSCode切换到Cursor吗?
- 通过GitHub Actions实现简单的模型重训练自动化
- 加速你的 PyTorch 模型训练的简单方法
- 简化信息提取:GPT模型的可重用提示模板
- 简化Python代码以应对数据工程项目
- 模拟时尚零售中的循环经济挑战
- 模拟数据,真实学习:第一部分
- 仿真数据,真实学习:功效分析
- 模拟数据,真实学习:情境分析
- 仿真数据,真实学习:模拟系统
- 救命!我们被HECS绑住了
- Sklearn教程:模块5
- Python中的切片:全面指南
- 建模缓慢变化维度(SCD)
- 小型语言模型:在 PC 和树莓派上使用 38 亿 Phi-3 和 80 亿 Llama-3 模型
- 小而强大——小型语言模型的崛起
- 小型更智能
- 2024年数据职业所需的软技能
- SOFTS:时间序列预测的最新创新
- 通过工件流水线解决GPT分支问题
- 用量子退火解决受限项目调度问题
- 利用数学规划和列生成方法求解资源规划问题
- 使用 SOLID 在 Python 中解决网球重构挑战
- 使用神经网络求解微分方程
- 我是如何通过回溯法解决 LinkedIn Queens 游戏的
- 解决 2023 年大语言模型推理问题
- 使用爬山算法解决经典的世界大赛下注问题
- 使用遗传算法解决旅行商问题
- 关于将大型语言模型(LLM)应用落地的一些思考
- Sora — 直观且详尽的解释
- “化学直觉的火花”——以及AlphaFold 3中的重大局限!
- 稀疏自编码器、加性决策树以及 AI 可解释性中的其他新兴话题
- 使用目标信息稀疏化知识图谱
- 随机对照试验中的空间挑战
- 空间索引:网格系统
- 空间索引:R树
- 空间索引:空间填充曲线
- 空间索引:镶嵌
- Python中的空间插值
- 说话,不要打字:探索与大型语言模型(LLMs)的语音交互
- 基于DNN的语音处理工具中的说话人隐私保护
- 推测性解码:使用Mixtral-8x7B和Gemma加速推理
- 使用 Python 和 AI 的语音转文本再转语音 — 一份如何实现的指南
- 使用BatchNorm加速视觉变换器
- 用AI为冰球增添趣味:利用计算机视觉进行球员追踪
- 剧透警告:RAG的魔力并不来自AI
- 识别地震数据中的时空模式
- 虚假相关:统计学的喜剧与悲剧
- SQL和数据建模实战:深入探讨数据湖仓
- SQL解释:公共表表达式
- SQL解释:分组集、汇总和立方体
- SQL 解释:规范化范式
- SQL 解析:排名分析
- 数据科学所需的 SQL 知识
- SQL:数据工程 — 第一部分
- SQL:数据工程——第二部分。
- SQL 精通:数据专业人士的高级技术
- SQL优化、数据科学投资组合及其他七月必读文章
- SQL Server 的秘密功能 — 在 SQL Server 中本地运行 Python 和附加组件
- SQL 用户定义函数(UDFs)
- SQL与计算器:从零开始构建冠军/挑战者测试
- SQLite在现代网页生产中的应用:梦想变为现实
- 压缩平均值:深入探讨 Python 中的惩罚分位回归
- 使用哈希空间实现稳定且快速的随机化
- 2024年巴黎奥运会的明星运动员
- 从正确的起点启动机器学习产品项目
- 视频生成的现状
- 打分偏差的统计分析
- 使用Python进行统计分析:癌症治疗数据的洞见
- 统计收敛及其后果
- 统计方法scDEED检测可疑的t-SNE和UMAP嵌入并优化超参数
- 统计抽样简介
- 掌握统计检验(第一部分)
- 统计确认你的基准测试——通过案例研究比较 Pandas 和 Polars 在 100 万行数据上的表现
- 斯坦因悖论
- 逐步基础:代码自动文档生成
- 在 Plotly 中构建排名图的逐步指南
- Plotly 中交互式日历的逐步构建指南
- 步骤指南:如何在 Plotly 中构建 Waffle 图表
- Python中创建模拟数据的分步指南
- 使用Plotnine进行时间序列可视化的逐步指南
- 领域适应简介——动机、选择、权衡
- 深入探讨微调
- 深入探讨上下文学习
- 仍在手动审查所有用户与 AI 解决方案的互动吗?
- 随机梯度下降背后的数学原理
- 停止被数据驱动
- 停止猜测,衡量你的RAG系统以推动真正的改进
- 停止手动排序你的 Python 列表,如果性能是你的关注点
- 数据质量不需要复杂
- 停止过度使用Scikit-Learn,改用OR-Tools
- 停止计数!为什么为指标设置时间限制对于快速且准确的实验至关重要
- 停止浪费LLM令牌
- 为机器学习面试制定准备策略
- 草莓悖论:当完美的答案不足以解决问题时
- 河流排序:为什么有时地理科学家需要在地图上对河流进行排名
- 使用 Python、Kafka 和 Faust 进行流处理
- 精简数据管道:如何使用 PySpark 和 WhyLogs 进行高效的数据分析和验证
- 精简房地产数据管理:使用Indexify进行高级数据提取和检索
- 精简你的提示语,降低LLM的成本和延迟
- 启动新研究论文时优化工作流程
- 精简电子商务:利用实体解析进行产品匹配
- 精简巨头
- 使用Metaflow、AWS和Weights & Biases优化物体检测
- Streamlit 支持 5 个重要的数据可视化库 — 该选择哪个?
- 结构与关系:图神经网络及其在Pytorch中的实现
- 结构化生成式 AI
- 使用Ollama进行结构化LLM输出
- 结构化输出及其使用方法
- 结构化状态空间模型视觉解析
- 使用 Overpass API 提取地铁路线数据:一步步指南
- 成功的人工智能伦理与治理:弥合解释鸿沟
- 成功的人工智能伦理与治理规模化:弥合组织和实施的鸿沟
- 通过数据视角看夏季奥运会
- 使用DSPy和Langfuse提升你的LLM应用程序
- 超级增强的 Pandas:用新颖的方法追踪依赖关系
- 通过符号程序搜索超充提示工程
- 叠加现象:为何它使得神经网络难以解释
- 使用大语言模型的监督微调(SFT)
- 使用Python进行供应链过程调度
- 支持向量分类器,解释:带有迷你 2D 数据集的视觉指南
- 简化支持向量机——二元分类简明介绍
- LLM的软硬件共同优化策略——第二部分(软件)
- 从Sphinx切换到MkDocs文档 —— 我得到了什么,失去了什么?
- 句法:语言的形式
- A/B 测试的前后合成控制样本
- 实践中的合成数据:Shopify案例研究
- 合成数据:好、坏与未整理
- 系统设计:布隆过滤器
- 系统设计:一致性哈希
- 系统设计:负载均衡器
- 系统设计:四叉树与 GeoHash
- t检验:从应用到理论
- 如何在 Power BI 中操作总计
- 应对复杂LLM决策制定:语言代理树搜索(LATS)与GPT-4o的结合
- 使用 bart-large-mnli 标记登山事故报告
- 看一看引擎盖下的情况
- 目标是选择具有最大影响力的变体
- TARNet 和 Dragonnet:S-学习者与 T-学习者之间的因果推断
- 任务感知 RAG 策略:当句子相似性失效时的应对方法
- TE2Rules:解释“为什么我的模型这么说?”
- 教授你的模型从自身学习
- 使用 Python 进行聊天数据分析的技巧
- 使用Python进行聊天数据分析的技术
- 探索性数据分析技巧与统计图形的解释
- 医疗数据分析中的特征工程技术 — 第二部分。
- 从五年的旅程中得到的四个收获
- 通过地理空间插值进行温度重建
- LLM中的温度缩放与束搜索文本生成,面向机器学习相关领域的人
- 时间差分学习:将动态规划与蒙特卡罗方法结合用于强化学习
- 2024年时序图学习
- 十个关于2025年数据科学与AI的预测
- TensorFlow Transform:确保生产中的数据准备无缝进行
- Terraform配置Dataform
- 实践中的测试:代码、数据与ML模型
- 测试Unitree Go-1的现场能力
- 文本嵌入、分类和语义搜索
- 文本嵌入:全面指南
- 使用GPT进行文本生成
- 使用 Graph Maker 将文本转换为知识图谱
- 文本到SQL的LLM应用:提示注入
- 文本向量化解密:将语言转化为数据
- TFT:一个可解释的Transformer
- 全栈数据科学家的4个角色
- 4个新的潮流AI概念及其在数字产品中的潜力
- 2024年你不能忽视的5项数据科学技能
- 生成式AI的80/20问题 — 一项用户体验研究洞察
- 准确性与可解释性的权衡是一个谎言
- AI 开发者的困境:专有 AI 与开源生态系统
- AI生产力悖论:为什么更多的工人没有使用ChatGPT?
- 让Google变成Google的算法
- 自主管理代理的构成
- AQLM量化算法解析
- 《神秘网络》
- 工程师和数据专业人士提问的艺术
- 分块艺术:提升RAG架构中AI性能
- 数据科学家的压力管理艺术
- 分词的艺术:为AI分解文本
- 自动驾驶汽车背后的AI模型基础
- AI驱动的(向量)搜索基础
- 偏差-方差权衡及其如何塑造今天的 LLM
- 当前塑造 AI 未来的大问题
- 增强树的最大弱点
- Blender 3D点云可视化与渲染手册
- 《定制语言AI的商业指南》
- 定制语言AI的商业指南 第二部分
- 反对集中式奖章架构的案例
- 检索和评估RAG相关上下文的挑战
- 置换检验的多彩力量
- 生成性AI的即将版权审判
- 《在自定义数据集上训练和运行 YOLOv8 模型的全面指南》
- 人工智能生成内容的文化影响:第一部分
- 康威定律与数据空间
- 环绕在我们周围的数据:从体育到家庭管理
- 数据网格注册表 — 进入数据网格的窗口
- 数据投资回报率金字塔:衡量和最大化数据团队价值的方法
- 那份让我获得工作和面试机会的数据科学简历
- 数据科学家选择数据供应商的指南
- 数据演讲者的蓝图:将分析转化为掌声
- 数据战略选择级联
- 静态人工智能基准的死亡
- 《使用OpenAI GPT3.5解析结构化数据的终极指南》
- 机器学习工程师与数据科学家的区别
- 通往 AI 产品管理的 DIY 路径:选择一个初始项目
- 双摆及其超越:通过多臂摆研究混沌
- Scikit-learn的虚拟模型
- 今天学习和使用 Python 的最简单方法
- 人工智能的经济学、因果工具、ChatGPT的影响和其他节日阅读
- 人工智能的经济学 — 自动化对工人意味着什么?
- 必要工作终结:普遍基本收入与AI驱动的繁荣
- 演示错误检查和复审的必备指南
- 图解图理论精要:从18世纪谜题到人工智能框架
- 数据可视化的 R 和 Python 库实用指南
- Llama的发展:从Llama 1到Llama 3.1
- 超越个人训练:从人类到AI
- SQL的演变
- 文本到视频模型的演变
- GNN的表现力 — 介绍与基础
- GNN的表达能力 — 消息传递神经网络
- 来自图论的Floyd-Warshall算法,应用于解析分子结构
- 数据建模的被遗忘的指导作用
- 数据验证的基础
- 数据职业的四大支柱
- 数据项目代码卓越的四个R(第一部分)
- 未来是神经-符号的:人工智能推理如何发展
- 数据库的未来 — 图关系型数据库
- 生成式AI的未来是具代理性的:你需要了解的内容
- 机器人组装的未来
- 生成式 AI 的优势:产品策略的差异化
- 德国坦克问题
- 数据中的“淘金热悖论”:为什么你的KPI需要重新思考
- 好的、坏的和丑的:神经网络的记忆
- 《研究生指南——我是如何资助(大部分)我的硕士学位的!》
- 《平台重构的事后指南》
- 通过网络可视化展示健美的历史
- 卷积神经网络在图像分类中的历史(1989年至今)
- 数据协作的重要性
- 人工智能中的记忆:关键好处与投资考虑
- 嵌入与嵌入模型的工作原理
- 地理编码与艺术的交集:利用开放街图和Networkx
- AI 系统中记忆与基础构建的交集
- Concordance Index 的直觉——生存分析
- 优化的直观基础
- 打破我的自动化的隐形错误:OCR 如何改变了游戏
- RAG开发之旅:从笔记本到微服务
- 更智能模型的关键:跟踪特征历史
- 企业AI成功的关键:价值链
- 新兴人工智能代理架构在推理、规划和工具调用方面的全景:一项调查
- 地图语言:地理空间数据格式与坐标指南
- 大语言模型的最新进展:决策制定、知识图谱、推理能力等
- 新数据环境中的领导、影子和对抗角色
- LLM的(较少为人知的)崛起应用
- 检索增强生成(RAG)的实际局限性与优势
- 构建可靠AI应用程序的LLM三角原则
- 预测准确度的机器学习指南:插值与外推
- 从组织数据中获取最大价值的诸多支柱
- 营销报告差距
- K-Means 聚类背后的数学与代码
- Adam优化器背后的数学
- 批量归一化背后的数学
- 卷积神经网络背后的数学
- 深度卷积神经网络的数学原理 — AlexNet
- 深度神经网络微调背后的数学
- 门控递归单元背后的数学原理
- 上下文学习背后的数学原理
- KAN 背后的数学 — 科尔莫戈罗夫-阿诺德网络
- Keras 3 优化器背后的数学原理:深入理解与应用
- 核密度估计背后的数学
- K-最近邻的数学原理
- LSTM背后的数学
- Transformer中的多头注意力背后的数学原理
- Nadam优化器背后的数学原理
- 神经网络背后的数学原理
- 循环神经网络背后的数学原理
- 风险游戏背后的数学 — 第1部分
- 《风险背后的数学 — 第二部分》
- “维度灾难”背后的数学原理
- AI 解释性的重要性
- 持续学习的指标
- 机器中的镜像:生成性 AI、偏见与追求公平
- 缺失的拼图:符号人工智能在解决生成式人工智能难题中的作用
- MMD-Critic 方法解析
- 网络上最先进的数据可视化和分析库
- 我在职业生涯中见证的最昂贵的数据科学错误
- 在本地设置ChatGPT的最简单方法
- 数据科学家最被低估的技能
- 成功进入科技行业的最有用的高级SQL技巧
- 多臂赌博机问题——面向初学者的指南
- PyTorch 自动混合精度库背后的谜团
- 打破ChatGPT的名字:大卫·梅耶是谁?
- 大海捞针测试
- LLMs的新前沿:挑战、解决方案与工具
- Julia 中的 One Billion Row Challenge
- 启动我进入数据科学的那一个思维方式转变
- 终身机器学习的起源:为什么LLML是AI领域的下一个游戏改变者(第一部分)
- 生成式人工智能的类比
- 帕雷托原则在数据工程中的应用
- 数据质量管理的过去、现在与未来:理解2024年数据测试、监控与数据可观察性
- 生成性人工智能中的主导设计路径
- 数据背后的物理学
- 泊松自助法
- 地理空间智能和相似性分析在数据映射中的应用
- 优化在设计涉及小样本实验中的力量
- Pandas 图表的威力:后端
- 全栈数据科学的可预测崛起
- 黄金的代价:奥运成功是否只属于富人?🥇
- 机器学习/人工智能中的学习证明
- 清晰性的追求:可解释的神经网络是伦理人工智能的未来吗?
- 生产质量图谱RAG的探索:容易开始,难以完成
- 扩散模型的崛起——生成深度学习的新纪元
- 《帕拉斯的崛起:通过自定义内核释放TPU的潜力》
- 稀疏专家混合的崛起:Switch Transformers
- 通往生物学2.0的道路将穿越黑箱数据
- 数据科学在普及AI中的角色
- 数据与人工智能失败的根本原因
- 天才综合症:模式识别是否等同于智能?
- 人工智能首个诺贝尔奖背后的科学
- 猫头鹰的秘密网络
- 成功创建数据故事的秘诀,而非垃圾仪表盘
- 你不知道的Python Secrets
- 阻碍(大多数)数据科学家的技能
- 编程中使用AI的更聪明方式
- 堆叠集成方法
- 统计显著性骗局
- RLHF的故事:起源、动机、技术和现代应用
- Google Cloud Dataflow背后的流式处理模型
- 人工模仿智能在专业领域中的挣扎
- 泰勒级数,解释
- Power BI 报告的十条命令
- 数据工程解决的十大数据生命周期问题
- 强化学习锦标赛:DDPG、SAC、PPO、I2A、决策变换器
- 透明人类
- 冲刺的陷阱:不要像斯嘉丽·奥哈拉那样,今天就思考!
- 每个数据科学家在面试前必须写的两份文档
- 招聘的两面性:在多元化市场中招聘与面试数据角色
- 发现时间序列数据中的异常值终极指南(第一部分)
- 《终极指南:如何在时间序列数据中发现异常值(第二部分)》
- 《发现时间序列数据中的异常值终极指南(第三部分)》
- 《最终的数据解读指南》
- RAGs 终极指南——每个组件解析
- Vision Transformer终极指南
- 《大语言模型量化终极手册》
- 数据科学领导者的终极生产力系统
- 《企业数据质量“谁做什么”指南》
- 人工智能的“谁、什么、为什么”
- 布隆过滤器的奇妙之处:实用指南
- 有一种正确的犯错方式
- 关于机器学习测试,没人告诉你的事
- 使用 Python 可以做的事情:高级和特殊用例
- 以为你了解Excel吗?通过Power Query将你的分析技能提升到新高度!
- 《思考,快与慢》、大语言模型(LLMs)与规划领域定义语言(PDDL)
- 数据科学家的三周年工作纪念:成长、反思与接受
- 关于如何应对研究项目规划的思考与建议
- 我从一次与人工智能无关的数据会议中学到的三大关键数据经验
- 你需要知道的三个重要Pandas函数
- 物理学中的三个令人震惊的想法:静止作用原理、洛伦兹变换和度量张量
- 为什么开发人员应该使用DuckDB的三大理由
- 识别您企业成功的三步“银弹”
- 计算两个字符串相似性的三种方法
- 通过那面神秘的镜子:LLMs是否像人类大脑一样记忆?
- 完美二叉树遍历的时间复杂度分析
- Time-LLM:为时间序列预测重编程LLM
- TIME-MOE:亿级规模的时间序列基础模型,采用专家混合模型(Mixture-of-Experts)
- Time-MoE:最新的基础预测模型
- 时间序列对大型语言模型(LLMs)来说并没有那么不同
- 时间序列 — ARIMA vs. SARIMA vs. LSTM:实践教程
- 时间序列预测:探索性数据分析实用指南
- 时间序列预测:超越基础
- 生成型人工智能时代的时间序列预测:让梯度提升像大型语言模型一样工作
- 使用TensorFlow进行时间序列预测和通过可视化技术进行验证期外预测
- 使用 TiDE 进行时间序列预测
- 时间序列 — 从分析过去到预测未来
- 使用Transformer进行时间序列预测
- 时间序列回归与交叉验证:一种简洁的方法
- TimeGPT vs TiDE:零样本推理是预测的未来还是仅仅是噱头?
- TimeMixer:探索时间序列预测中的最新模型
- TimesFM:谷歌的时间序列预测基础模型
- TimesFM:基础模型在时间序列预测中的兴起
- TinyLlama——强大的小型语言模型的有希望的未来
- Tiny Time Mixers (TTM):IBM推出的强大零-shot预测模型
- 在检索增强生成(RAG)中正确处理生成部分的技巧
- 如何管理大规模数据科学项目的技巧
- 关心,还是不关心:使用 XmR 图表区分度量中的信号与噪声
- 是否使用数据?
- 索引与否
- 知道就是记得
- 屏蔽还是不屏蔽:提示令牌对指令微调的影响
- 在 Python 和 Mathematica 中可视化复值函数
- Tokens-to-Token 视觉转换器解析
- 工具使用、代理和Voyager论文
- 2025年数据与AI十大趋势
- 2025 年数据科学家成功所需的 12 项技能
- 搜索数据的三大策略
- 2024年初的30个GitHub Python项目
- 前5大地理空间数据 API 用于高级分析
- 构建用户友好数据表的五大原则
- 数据工程师的顶级职业网站
- 顶级数据科学职业问题,答案揭晓
- RAG失败的顶级评估指标
- 自然语言处理推荐系统中的主题对齐
- 使用 OpenAlex API 进行开源研究的主题建模
- 使用BERTtopic进行Python中的主题建模
- 话题建模你的个人数据
- Torch 编译:以低努力实现 2 倍更快的 Llama 3.2
- 图谱的泛化探索:从不变性到因果性
- 朝着提高LLM应用中的真实性前进
- 朝向无限LLM上下文窗口
- 朝着 Mamba 状态空间模型迈进:图像、视频和时间序列
- 走向单一语义性:理解大型语言模型的一步
- 朝着命名实体消歧(NED)与图嵌入的方向发展
- 朝着可靠的合成控制
- 数据工程模式
- TPU不出售,但为什么?
- 追踪图中的变压器
- 使用MLflow追踪计算机视觉实验
- 跟踪你的机器学习实验
- 使用AI气象模型追踪飓风
- 实践中的跟踪:代码、数据与机器学习模型
- 使用卫星图像跟踪大盐湖的缩小(Python)
- 用 60 行代码训练/微调 Segment Anything 2 (SAM 2)
- 快速训练朴素贝叶斯模型
- 在 CPU 上训练 AI 模型
- 训练 CausalLM 模型 第 1 部分:CausalLM 到底是什么?
- 在Google Colab上训练语言模型
- 在Rust中从零开始训练LLM
- 使用CrewAI和Streamlit将客户反馈转化为可操作的洞察。
- 使用双曲正弦转换数据
- 将点云转换为3D网格:Python教程
- 变换器?扩散?输血!
- Transformers:从自然语言处理到计算机视觉
- Transformer:它们如何转化你的数据?
- Transformer键值(KV)缓存解释
- Transformers 流程:NLP 任务的综合指南
- 数据质量转型:自动化 SQL 测试以实现更快速、更智能的分析
- 将下一个标记预测转化为LLM分类任务
- 翻译回忆录:一段技术旅程
- 被困在网络中:图形的基础模型在哪里?
- 2024年将塑造现代数据架构的趋势
- TSMixer:Google创新的深度学习预测模型
- Pandas中的TSV:操作指南
- 调整:使用 scikit-learn 的 TunedThresholdClassifierCV 进行决策阈值优化
- 无需调优的LLM更长上下文长度——自我扩展(LLM也许是LongLM)评审
- 使用LLM2Vec将Llama 3转化为嵌入模型
- 将你的 Python 函数通过一行代码变成装饰器
- 将自己转化为 3D 高斯点绘
- 将您的关系型数据库转化为图形数据库
- 做交叉验证时需要避免的两个常见陷阱
- 我的机器学习之旅中的经验教训:数据划分与数据泄漏
- UEFA 欧洲杯 2024 地图
- 终极指南:3D数据科学系统和工具
- (非)客观机器:探讨机器学习中的历史偏见
- 马尔可夫决策过程中的不确定性:一种鲁棒的线性规划方法
- 不确定性量化及其重要性
- 时间序列预测中的不确定性量化
- 揭开欧盟人工智能法案的面纱
- 大型语言模型中的未充分训练和未使用标记
- 了解数据仓库:查询性能
- 一次性理解REINFORCE、Actor-Critic和PPO
- 一劳永逸地理解 SQL 窗口函数
- 理解神经网络中的抽象
- 理解与实现Medprompt
- 深入理解JAX中的自动微分
- 理解思维缓冲区(BoT)——与大型语言模型推理
- 理解概念漂移:一个简单的指南
- 理解条件概率与贝叶斯定理
- 理解数据质量及其为何让团队感到困扰
- 理解Dataform术语和身份验证流程
- 理解 DDPG:解决连续动作控制挑战的算法
- 了解去重方法:保护数据完整性的方法
- 理解爱因斯坦符号和 einsum 乘法
- 理解费曼的H统计量(H-stat)用于交互作用分析
- 理解LLaMa 2中的幽灵注意力
- 理解交点(链条、分叉和碰撞器)及其在因果推断中的作用
- 理解 K-Fold 目标编码以应对高基数问题
- 理解 KL 散度、熵及相关概念
- 直观理解KL散度
- 理解潜在狄利赫雷分配(LDA)——数据科学家的指南(第1部分)
- 理解潜在狄利克雷分配(LDA)——数据科学家的指南(第二部分)
- 从零开始使用中学数学理解 LLM
- 理解LLM中的Long RoPE
- 理解低秩适应(LoRA)在微调大规模语言模型中的应用
- 理解变压器中的位置嵌入:从绝对到旋转
- 在 Python 中理解竞争条件
- 了解解决GenAI挑战的技术
- 理解张量:通过 3 个令人头疼的错误学习数据结构
- 理解 GA4 BigQuery 导出架构和结构
- 理解直接偏好优化
- 理解ARIMA预测的局限性
- 理解强化学习中PPO的数学原理
- 理解线性规划中的优化过程管道
- 理解Mixtral中的稀疏专家混合(SMoE)层
- 理解 Shiny for Python 的两面性:Core 和 Express
- 理解时间序列的结构性变化
- 理解 Transformer
- 理解V结构及其在因果验证和因果推断中发挥的关键作用
- 理解何时以及如何实现 FastAPI 中间件(示例和使用案例)
- 理解“你只需缓存一次”
- 多项全能田径比赛中的不均衡得分
- UniFliXsg:为新加坡大学提供AI驱动的本科课程推荐
- 单位圆盘与2D有界核密度估计
- 单位圆盘均匀采样
- 通用数据供应:了解你的业务
- 摆脱旧思维,构建优秀的AI应用
- 解锁Llama3 —— 如何使用最新的大型科技开源LLM
- 发掘概率的力量,预测你业务的未来 🚀
- 发掘 SQL 分析窗口函数的威力:深入探讨融合 IPv4 块
- 释放 Triton 的力量:掌握 Python 中的 GPU 核心优化
- 通过有效的客户细分解锁商业潜力
- 解锁图表中的数据:如何使用 WebPlotDigitizer 数字化图表和图形
- 解锁成长:在Meta的三年——数据科学家的转型经验
- 解锁隐藏的潜力:探索第二轮购买者
- 解锁洞察:构建一个使用逻辑回归的评分卡
- 解锁洞察:随机森林在PCA和特征重要性中的应用
- 解锁销售表现指标
- 解锁检索增强生成(RAG)流程的未开发潜力
- 解锁有价值的数据和模型洞察,使用 Python 包 Yellowbrick 和 PiML(附代码)
- 不受欢迎的观点:成为一名优秀的数据科学家比以往任何时候都更难
- 揭开FlashAttention的面纱
- 解开无结构的电影数据
- 无监督学习系列:探索均值漂移算法
- 解开人工智能系统的谜团
- 揭开元动力学的面纱
- 揭示LLM的内部工作原理:奇异值视角
- 升级到 AWS ECS 上的 Prefect 推送工作者
- 通过保形预测和自定义非保形评分方法调整的预测区间
- 利用Rust的速度将Python库安装速度提高100倍
- 使用 Tablib 处理 Python 中的简单表格数据
- 用户行为序列建模:从注意力机制到变换器及其发展
- 企业工具的用户研究:行业中的人机交互
- USGS DEM 文件:如何使用 Python 加载、合并和裁剪
- 使用LangChain、LangSmith和OpenAI的GPT-4o的JSON代理
- 使用多模态文档 ML 模型查询您的文档
- 2024年使用iPad进行数据科学工作
- 使用贝叶斯建模预测欧冠联赛
- 使用因果图回答因果问题
- 使用聚类算法进行球员招募
- 使用决策树进行探索性数据分析
- 使用双重机器学习和线性规划优化治疗策略
- 使用评估优化 RAG 流水线:从分块和嵌入到 LLM
- 使用生成式AI从文章中自动创建视频讲座
- 使用生成性 AI 来策划约会推荐
- 使用生成式AI从杂乱数据中获取见解
- 使用 IPython Jupyter 魔法命令改善笔记本体验
- 使用LangChain ReAct代理回答RAG系统中的多跳问题
- 使用线性方程 + LLM 来解决 LinkedIn 皇后游戏
- 使用 Llama 3 构建 AI 代理
- 使用LLMs从YouTube学习
- 使用 LLMs 查询 PubMed 知识库进行生物医学研究
- 使用客观贝叶斯推断解读选举民意调查
- 使用离线强化学习试验在线平台干预
- 使用 OpenAI 和 PandasAI 进行 Series 操作
- 使用PCA进行异常值检测简介
- 使用 Poetry 和 Docker 将你的模型打包为 AWS Lambda 适用格式
- 使用 Power BI 进行规划(仓库)与库存值
- 使用Python探索和理解岩石物理学中的方程
- 在Go中使用RabbitMQ Streams
- 使用自组织映射增强大型语言模型中的检索增强生成
- 使用Sun RGB-D:带有2D和3D注释的室内场景数据集
- 使用向量引导来改善模型指导
- 使用 OpenAI API 检测短信垃圾信息
- 时间序列的VAE
- 在生产管道中验证数据:TFX方式
- 验证合成控制方法的因果影响
- Pydantic V2 中的验证
- 向量嵌入是有损的。我们该怎么办?
- VerifAI项目:开源生物医学问答系统,提供经过验证的答案
- Vision Mamba:像Vision Transformer,但更强大
- 带有BatchNorm的视觉变换器(Vision Transformer)
- 视觉变换器、对比学习、因果推断以及其他你不容错过的深度解析
- Vision Transformers 解析
- VisionTS:从图像构建卓越的预测模型
- 视觉指南:理解大型语言模型的基础
- 可视化101:选择最佳的可视化类型
- 可视化Strava比赛分析。
- 可视化、数学、时间序列及更多:我们最近最深入的文章
- 使用Matplotlib绘制数据的饼图
- 通过数据序列化可视化业务流程
- 使用Python可视化濒危动物种群
- 像专业人士一样可视化:为 Matplotlib 图表添加注释,讲述引人入胜的数据故事
- 可视化你的RAG数据——使用Ragas评估你的检索增强生成系统
- 使用PyDeck可视化3D空间数据
- 用 LLMs 可视化和整合复杂想法,第1部分:Napkin AI
- 在基于代理的模型中可视化动态行为
- 可视化珠穆朗玛峰探险
- 可视化 Torch 中的梯度下降参数
- 从政府来源可视化家庭收入 —— 引导式操作指南
- 可视化我的数据科学求职过程
- 可视化道路网络
- 使用Python在交互式地图上可视化路线:第一部分
- 可视化 SQL Server 作业历史:利用 SQL Server 语言扩展解锁隐藏功能
- 可视化实体嵌入的随机正则化
- 可视化批量归一化及其优点
- 使用GNNs进行符号化钢琴音乐中的声部与五线谱分离
- Voyage Multilingual 2 嵌入评估
- 迈克尔·斯科特是世界上最好的老板吗?
- 从太空观察风暴:一个用于创建惊人视图的 Python 脚本
- 水冷器闲聊:赌徒谬误与破产
- 水冷小谈:辛普森悖论
- 水冷器闲聊:生日悖论 🎂🎉
- 水冷机旁小谈话:为什么蒙提霍尔问题仍然困扰我们?🐐🚗
- 人工智能文本和合成蛋白质的水印
- 在 BigQuery 中改进你的 RFM 模型
- 我们为PySpark构建了一个开源数据质量测试框架
- 我们需要提高人工智能产品经理的标准
- Welch t检验:比较两个方差不等的总体均值的可靠方法
- 《我在Uber、Meta和初创公司工作的10年,教会了我关于数据分析的经验》
- 15位顶尖数据科学家的建议
- 什么是数字双胞胎?
- 情绪在法律上的定义是什么?这真重要吗?
- 我从2024年构建LLM应用中学到了什么?——第1部分
- 大型语言模型究竟“理解”什么?
- 进化告诉我们关于人类智力的什么?
- 进入数据工程需要什么技能,2024年如何入行?
- 成为数据科学家的第一步需要做什么?
- Transformer 架构告诉我们什么?
- “Dream Big”对LinkedIn数据科学创新的意义
- 成功的每个机器学习工程师必须知道的事情
- 什么是算法?图灵机解释
- 什么是“Eval”,为什么产品经理需要关注它?
- 什么构成了AI?探索GenAI技术栈
- 专家系统发生了什么?
- 我从教技术课这2年学到的东西
- 我在做自由职业数据科学家的前三个月学到了什么
- 我在做自由职业数据科学家这9个月中学到的东西
- 如果ChatGPT实际上是来自另一个世界的导游呢?(第二部分)
- 什么是缺失值的良好填补方法?
- 什么是潜在空间?
- 什么是因果推断?
- 什么是决策模型的Switchback测试?
- 最大的数字是什么?
- Python 中的 LEGB 规则是什么?为什么它很重要?
- 构建一个伟大图表需要什么
- 什么造就了一个强大的人工智能?
- 什么才是一个真正的AI代理?重新思考自主性的追求
- 接下来做什么?探索图神经网络推荐引擎
- 关于 RAG 的那些事,没有人告诉你
- 卓越的数据分析师与众不同的地方
- 数据科学需要学习的统计学知识
- 教授AI让我对数据技能与人性的理解
- 粒子群优化(PSO)从零开始。用 Python 实现的最简单解释
- 作为数据科学家,入职的前90天你可以期待什么
- 如果你想掌握LLM,应该学习什么?
- 我们仍然不理解的机器学习问题
- 2024年转行做数据科学之前,你需要知道的事项
- 构建具有Stripe订阅和Firestore集成的大型Streamlit应用程序所需了解的内容。
- 神经网络内部是什么?
- 计算机视觉和物体检测领域有哪些新进展?
- Pandas 2.2 新特性
- HNSW的故事是什么?
- R平方的问题在哪里(以及如何修复它)
- 当AI艺术家代理竞争时
- 当平均值说谎:超越单点预测
- 你什么时候使用自连接?一个实用的技巧
- 当机器开始思考未来:战略性人工智能的崛起
- 欧盟Horizon H2020资金流向何方?
- 你应该使用哪种回归技术?
- 在 Power BI 中使用 RLS 处理关系时,可能出现哪些问题?
- 谁是聊天机器人(它们对你来说意味着什么)?
- 数据领域中谁做什么?数据工程师与数据科学家的角色实用介绍
- 谁真正拥有你预订的Airbnb房源?——营销认知与数据分析现实
- 为什么“AI无法推理”是一个偏见
- 为什么(以及如何)我作为数据科学家学习网页开发
- 为什么以及何时使用广义矩法
- 为什么高级RAG方法对AI的未来至关重要?
- 为什么批量归一化对深度学习至关重要
- 为什么聚类失败
- 为什么数据处理对数据科学家至关重要
- 为什么数据科学可能不适合你
- 为什么数据科学家需要这些软件工程技能
- 为什么深度学习模型在 GPU 上运行更快:CUDA 编程简要介绍
- 为什么人工智能项目会失败?
- 为什么计算机甚至使用二进制?
- 为什么数据团队无法交付可衡量的ROI?
- 为什么Python消耗如此多的内存?
- 为什么是ETL-Zero?理解数据集成的转变
- 为什么解释性在人工智能中很重要
- 为什么 GenAI 是数据删除和隐私的噩梦
- 为什么以人为中心的方法能带来更好的算法设计
- 为什么内部公司聊天机器人会失败,以及如何在企业中有效利用生成性人工智能
- 为什么找不到数据科学的工作
- 为什么机器学习不适用于因果估计
- 为什么大多数交叉验证可视化是错误的(以及如何修复它们)
- 为什么个性化项目失败
- 为什么在AI时代,PoC逐渐过时?
- 来自 COVID-19 的教训:为什么概率分布如此重要
- 为什么在商业健康中比例比绝对数字更重要
- 为什么表示微调是目前最有效的方式?
- 为什么再训练比训练更难
- 为什么检索增强生成在长上下文语言模型时代依然重要
- 为什么规模化有效:归纳偏差与痛苦的教训
- 为什么集合在编程中如此有用
- 为什么“统计显著性”是毫无意义的
- 为什么 STEM 对任何数据科学家都很重要
- 为什么2024年诺贝尔化学奖(人工智能化学奖)如此重要
- 为什么图灵测试变得过时
- 为什么你(目前)不需要深度学习进行时间序列预测
- 为什么你应该雇佣方法学家
- 为什么你永远不应该使用交叉验证
- 为什么你不应该将数值评估用作大语言模型的评判标准
- Transformer 是否会彻底改变时间序列预测?
- 你的圣诞节会是白色的吗?问问AI天气模型吧!
- 你的选票会决定下一任总统吗?
- 与嵌入的工作:闭源与开源的对比
- 使用Python的Dataclasses和Dataclass Wizard
- 用纯Python(无JVM)实现的数据湖写入-审计-发布
- 编写更简洁、一致的代码:ChatGPT和自动格式化工具能帮忙吗?
- 为数据科学/机器学习职位编写一份好的职位描述
- 用 Rust 编写 LLM:寻找高效的矩阵乘法
- 撰写有影响力的编程文章:成功指南
- XPER:揭示预测性能的驱动因素
- 是的,你在“ChatGPT时代”依然需要NLP技能
- YOLO — 手动实现
- 通过 API 使用 Docker 进行 YOLO 推理
- YOLO — 直观且详尽地解释
- 你没有进行A/B测试。你仍然可以追溯性地模拟一次。
- 你不知道 Jacc(ard)
- 你不需要LLM代理
- 当 Pandas 足够用于数据可视化时,你无需使用 Matplotlib
- 你可能已经知道 Python 中的这个设计模式,但该何时使用它呢?
- 《15分钟了解如何在商业中使用因果推断(含安慰剂测试)》
- 你的人工智能模型并非客观
- 你的公司需要小型语言模型
- 你的数据质量检查远没有你想象的那么有效
- 你的文档正在告诉你什么是相关的:通过链接实现更好的 RAG
- 您的电子商务产品表现报告可能会误导您
- 你的端到端产品分析策略
- 作为数据科学家的第一年:生存指南
- 成功之路:如何获得机器学习和数据科学实习机会
- 你有一个时间序列。那接下来该做什么?
- 基于CLIP风格编码器的零-shot定位