个人信息
- 蒋文林/男/1988
- 博客:https://kevinjiang.info
- Github:https://github.com/kevindragon{:target="_blank"}
- 微信:kittenll
- 邮箱:wenlin1988@126.com
个人简介
我拥有12年世界500强企业励德爱思唯尔公司的工作经验,担任3年团队管理职务,6年资深研发顾问经验。目前,我跟朋友经营着一家初创企业(湖南赤道银河科技有限公司),负责管理技术团队并带领他们取得成功。我拥有多种技能,并能够灵活应用它们来解决问题。在我领导的团队中,我注重激发成员的潜力,并通过提供明确的方向和全面的支持,帮助他们实现个人和团队目标。 我的性格开朗、乐观、喜欢分享并且具备钻研精神。我在自然语言处理方面有丰富的经验,曾经在多个自然语言处理相关的项目中担任过关键角色。我擅长运用机器学习和深度学习等技术对大规模文本数据进行分析和挖掘,包括文本分类、实体识别、关系抽取等。我对于不断学习新知识和技能充满热情,以适应迅速变化的商业环境。我期待能够在未来的机会中为组织做出积极的贡献。
工作经历
湖南赤道银河科技有限公司
湖南赤道银河科技有限公司,是一家大数据和人工智能驱动的科技智库和科技情报系统解决方案提供商。自主研发的猎研(SciRadar)一站式科技创新情报平台荣获2021年中国国防科技信息优秀成果。自正式上线以来,机构用户覆盖全国多家重点高校、科研院所以及政府和企业的科技部门,包括:中科院、工程院、清华大学、军事科学院、国防科技大学、鹏程实验室等。
制定相应的战略规划,以帮助公司把握市场机遇,实现可持续发展。制定公司的人才战略和组织文化建设,招募和留住优秀的人才,为公司的未来发展打下坚实的基础。带领团队攻坚克难,持续提升研发效能。密切关注市场和客户需求,了解行业发展趋势,跟踪最新技术发展,引入先进技术对,持续产品用户体验。拓展公司业务,成功拿下多个大单,完成了一个又一个项目的交付,不断为客户创造更多价值。
在此期间我们承接了多个重点高校的研发项目,参与了长沙市重大专项计划,申请了湖南省2023重大研发计划。
公司主打的产品是SciRadar,网址:https://sciradar.com
主导或参与的项目
猎研 SciRadar
猎研SciRadar一站式科技创新情报平台,运用大数据、人工智能、数据挖掘等技术手段,提供基于云计算的一站式SaaS服务。平台集科技文献检索、统计分析、网络分析、数据可视化、报告生成于一身;以复杂网络、技术演化、数据挖掘、知识图谱等为基础,利用统计机器学习、自然语言处理和信息可视化等方式对文献、专利等题录信息进行了深度发掘、可对科技领域研究发展态势、国家合作情况、领域研究重点、科研人员状况和机构竞争情况等进行定性和定量分析,便于科技管理者和科研工作者快速了解领域内科技发展状况、把握技术机会、更加全面深入的挖掘科技文献中的战略信息,有效制定科技发展战略,形成科技研发核心竞争力。 在2022年11月,随着OpenAI发布的ChatGPTAPI接口的发布,我们迅速响应市场需求并开发了SciChat聊天应用。这款应用不仅提供了基础的对话功能,还具有个人知识库功能,用户可以上传自有文档并在对话中引用这些文档。这个功能让知识的来源变得可追溯,使得阅读文档变得更加高效和便捷。我们的团队在开发过程中充分利用了OpenAI提供的API接口,确保了应用的稳定性和可靠性。我们还为用户提供大量内置Prompt简化用户的使用门槛,不断优化用户界面和交互设计,以提供更好的用户体验。
我在此项目当中的职责:
- 项目管理,团队管理;
- 大语言模型开发与应用;
- Prompt Engineering;
- 软件架构设计与实施;
- 搜索引擎平台建设、优化及运维;
- 提升研发效能;
取得的成绩:
- 成功研发了一套SaaS化的文献计量与科技创新情报平台;
- 成功落地大语言模型;
涉及的技术栈:
- 领导力,项目管理,团队管理,研发效能;
- 大语言模型,Prompt Engineering;
- 云计算,DevOps,微服务架构;
- 科学计量学,引文网络分析,知识图谱;
- Java, Spring Boot, TypeScript, Vue, Python, FastAPI, WebSocket, Elasticsearch, Neo4j, Docker, Linux, Tailwind CSS。
智慧产权大脑
该项目是为湖南科德集团数智化升级开发的重点项目,同时也是长沙市的一个重大专项任务。湖南科德集团专注于科技项目申报咨询、高新企业认定咨询、管理体系咨询、产品认证咨询、科技成果转化等企业科技咨询服务。 在科德集团有大量的企业R&D报告需要撰写,该项目为科德集团建立了数据收集与深加工,数据仓库,智能搜索引擎,知识图谱以及AI立项报告等多个重磅功能,提升报告撰写体验,极大的提高了撰写报告的速度,为科德集团降本增效做出重大贡献。AI立项报告接入OpenAI的GPT-3.5接口,实现了R&D报告的智能撰写。
我在此项目当中的职责:
- 项目负责人。
- 与客户沟通,了解项目的整体需求。理解客户的需求和期望,同时及时反馈项目进展情况和问题。
- 设计技术路线与实施方案,大语言模型的Prompt Engineering
- 推动项目保质保量按时交付与验收。
- 制定项目开发计划文档,量化任务,并合理分配给相应的人员,并明确每个成员的具体职责。
- 跟踪项目的进度,协调项目组成员之间的合作,确保各项工作都按照计划进行,同时协调各个团队成员之间的工作关系。
- 研发效能提升,使用DevOps流程确保研发工作的高效产出。
- 项目管理。
- 处理项目过程中的需求变更。
- 参与客户方的内外部评审。
取得的成绩:
- 成功交付项目,获得了客户高度肯定;
涉及的技术栈:
- 领导力,项目管理,团队管理,研发效能;
- 大语言模型,Prompt Engineering;
- 云计算,DevOps,微服务架构;
- Java, Spring Boot, TypeScript, Vue, Python, FastAPI, Docker, Linux。
NSTL引文分析评价系统
引文分析评价服务系统是国家科技图书文献中心(National Science and Technology Library, NSTL)投入建设的以科学引证关系为基础的外文文献数据服务系统。引文分析评价服务系统面向社会公众、科研人员和科技管理人员提供科学文献信息服务。系统采用科学引文分析作为技术手段,通过构建以科学引证关系为基础的文献数据库,实现文献信息检索、分析和评价的综合服务。系统首期已完成总体设计和检索模块开发,实现了基本的文献信息检索功能。但随着数据库规模的扩大,存在检索效率下降的问题。引文分析评价服务系统(二期)开发的主要目的是引文分析评价服务系统的检索发现优化(索引结构重构),扩增对标分析模块的功能,与其他业务系统拉通以及与 NSTL 界面风格一体化。
我在此项目当中的职责:
- 项目负责人。
- 与客户沟通,了解项目整体需求。
- 设计技术路线与实施方案。
- 系统架构设计,核心框架开发。
- 指导产品经理,开发团队,测试团队。
- 研发效能提升,使用DevOps流程确保研发工作的高效产出。
- 项目管理。
取得的成绩:
- 成功交付项目,获得了客户高度肯定;
涉及的技术栈:
- 领导力,项目管理,团队管理,研发效能;
- 微服务架构,DevOps
- Java, Spring Boot, TypeScript, Vue, Python, FastAPI, Docker, Linux, Tailwind CSS。
伊利牧场融资风险评估系统
内蒙古伊利实业集团股份有限公司是中国规模最大、产品品类最全的乳制品企业,位居全球乳业五强,是全国性乳业龙头企业。我们公司联合内蒙古大学计算机学院发挥计算机技术和管理优势,与伊利集团就“基于知识图谱的牧场融资风险评估”进行深入研究,应用互联网、大数据和人工智能技术的辅助,构建数字化、智能化、更为精准的牧场融资风险的评估模型。
结合伊利集团提供的各类相关数据,结合伊利畜牧业专家提供的养殖和管理各个环节与产能关系的专业知识,以及从互联网收集的信息,利用大数据分析技术设计知识图谱概念层,将专业知识信息化,构建相关标签系统,并且针对各类数据碎片化、弱关联和时态特征,研究和实现多种关联数据的扩展与融合技术,构建了牧场融资风险知识图谱。基于伊利上游牧场的动态数据和产业链数据,以上述构建的知识图谱为数据支撑,利用机器学习和数据挖掘等技术,构建牧场融资风险的评估模型。
我在此项目当中的职责:
- 项目负责人。
- 与客户沟通,了解项目整体需求。
- 设计技术路线与实施方案。
- 系统架构设计,核心框架开发。
- 项目管理。
取得的成绩:
- 牧场融资风险知识图谱;
- 交付了一套牧场融资风险评估系统
涉及的技术栈:
- 领导力,项目管理,团队管理,研发效能;
- 知识图谱;
- 图数据库;
- 数据分析;
- Neo4j, Protégé, TypeScript, Vue, Python
励德爱思唯尔信息技术(北京)有限公司
目前为止,我在励德爱思唯尔工作时间最长,经历最为丰富。我从一位开发工程师开始,逐步晋升为高级研发工程师,并在公司的培养下成长为技术经理。最终,我担任了公司的高级研发顾问,为公司在技术方面提供解决方案,同时确保技术方案很好的落地。
励讯集团是世界领先的信息与数据分析提供商,服务于不同行业领域的专业及商业客户。作为励讯集团旗下信息分析公司爱思唯尔的技术经理及研发高级顾问,我曾服务于不同行业领域的专业及商业客户。我们帮助科学家作出新的科学发现,帮助律师打赢官司,帮助医生拯救生命,帮助保险公司向顾客提供更低的价格,防范欺诈,为纳税人和消费者节省开支,帮助公司管理人员与客户建立商业关系。我们的使命是帮助客户做出更好的决策,获得更好的收益,变得更加高效。
作为该领域的专家和高级研发顾问,我领导和参与了全球多个搜索平台的研发和建设,实现了业界领先的法律和专利搜索排序算法。我不仅使用机器学习方法优化了搜索排序,还指导团队成员开发了高质量的代码,有效降低海量代码的维护成本,并针对团队成员进行了技术培训和工作指导,以提高团队整体技术水平。
此外,我研发了Spark大数据平台,并实现了巨大的性能提升,加快了数据处理速度和团队工作效率。我还为团队成员编写了详细的技术文档,以帮助他们更好地理解和使用新的数据平台和技术工具。
通过我的工作指导和培训,团队成员的技术能力和工作效率都得到了显著提升。我持续关注新技术和行业发展趋势,并积极探索创新的解决方案,以帮助团队保持领先优势。
主导/参与的项目
Query Understanding
该项目是在公司的专利产品Total Patent One的基础上,团队致力于优化用户的搜索体验,为用户提供更加高效的专利查询方式,传统的查询表达式语法复杂难以记忆。使用自然语言处理技术,对专利自然语言查询词进行实体识别,结合用户交互设计为专利研究人员提高查询效率。 我们团队利用BERT训练了一个用户专利实体识别的模型。当查询到来时,首先判断用户的查询词是自然语言还是查询表达式,然后利用训练好的模型,对自然语言查询词进行实体识别,识别出人名、机构名、专利号、分类号、地名等实体信息,通过程序当中的规则引擎生成专利查询表达式,最后把最相关的结果展示给用户。
我在此项目当中的职责:
- 开发和维护规则引擎,对查询词进行分类;
- 使用Angular前端框架和Flask后端框架,开发Test Client以提升工作效率;
- 负责项目的部署和运维;
- 参与模型训练和优化;
- 与国外的同事进行有效的协作。
取得的成绩:
- 季度优秀员工
涉及技术:
- Python和Flask,用于后端开发;
- Java,用于开发查询词分类器和规则引擎;
- TypeScript, Angular,用于前端开发;
- Linux,AWS,用于服务器配置和云服务管理;
- BERT, Named Entity Recognition,用于自然语言处理和实体识别。
Query Augmentation
这个项目是为了提高搜索引擎的召回率而开展的POC项目。我们的团队使用了特征工程方法,构建了基于字符数量、单词数量、编辑距离、Jaccard系数、互信息、Word2Vec、GloVe和fastText在内的一系列特征,并通过日志挖掘和人工标注相结合的方法生成了训练数据。我们还训练了一个同义词识别模型,并对候选同义词列表进行了分类。最后,我们将同义词列表应用于在线查询扩展。
虽然我们的结果在精度方面取得了业界非常高的水平,但我们发现这种在线应用并没有达到预期的效果,因此我们最终放弃了这个方案。
角色:Senior Consultant
职责:算法实现与实验
涉及技术:NLP, Python, MarkLogic, Linux, AWS
Quick Win
项目描述:
- 使用 NLP 相关技术对同义词进行提取。
- 使用 NLP 相关技术对英文文本的短语进行挖掘,用于提高搜索质量。
- 参与研发基于 span 的搜索算法。
- 使用 Python、scikit-learn、Matplotlib及 TensorFlow 进行数据分析研究与可视化
- 开发了 Simulation 实验平台,使用遗传算法以对不同算法进行模拟实验,对搜索排序的改善起到良好的作用。hDCG 提升 1.8%。
项目业绩: ● hDCG 提升1.8% ● 开发了 Simulation 实验平台
Semantic Parsing
这是一个名为"Semantic Parsing for MarkLogic"的项目,该项目利用机器学习方法进行离线短语挖掘,并用于在线搜索中查询短语的识别。根据不同的短语类型,将查询请求指定到最相关的字段进行检索。我们取得了很好的成果,搜索结果的NDCG增长了2.7%。 在项目的研发过程中,我与团队设计并实现了一个全新的Python数据处理开发框架,这个框架可以对数据和底层业务逻辑进行抽象,从而提高数据库科学家处理数据的开发效率。我深刻认识到,在技术开发过程中,优秀的架构设计和高效的工具支持是至关重要的。
我在此项目当中的职责:
- 数据分析与处理;
- Python数据处理框架的设计与实现;
- 参与算法研究;
取得的成绩: NDCG提升2.7个百分点;
涉及技术: Python, Java, NLP, NLTK, spaCy, AutoPhrase, MarkLogic, Linux, AWS
Dive in Solr
这是一个POC项目,评估Solr对公司整个搜索平台的特定场景的支持程序,开发Search Component的成本。Solr是一个开源的搜索引擎,其中的Search Component组件能够通过对搜索结果进行加工处理,提高搜索结果的质量和相关性。该组件可定制化,用户可以根据需求修改查询参数、过滤条件、排序规则等,实现不同的搜索需求和功能。
角色:Consultant
职责:深入理解Solr源码,设计搜索引擎迁移方案,评估搜索引擎迁移成本
涉及技术:Java, Solr, Linux
Learning To Rank
该项目是为进一步提升Solr的搜索相关性而进行的算法升级,从固定权重模式升级为机器学习排序算法。
在将搜索引擎从HP IDOL迁移到Solr Cloud之后,我与团队进一步提升了Solr的搜索质量。我们首先收集了搜索和浏览日志,并根据日志数据的分析结果定义了文档数据与查询相关度的标准。随后,我们对日志数据进行了处理和清洗,并通过特征工程设计了一系列特征列表,用于生成训练数据。在使用Ranklib开发包进行模型训练时,我们选择了LambdaMART算法,LambdaMART算法相对于其他LTR算法的优势在于,它能够在学习排名时使用更加精细的特征,从而获得更好的性能。LambdaMART也能够处理大规模数据集和高维度特征,并在排序质量和训练时间上都具有良好的性能。为了在Solr进行LTR集成,我们将特征列表写入Solr,并选择支持LambdaMART的MultipleAdditiveTreesModel类。经过数月努力的研发和测试,我们成功地将NDCG的提升推向了一个新的高度,达到了9.6%。最后,我们建立了一个反馈循环,能够持续地优化线上搜索的相关性。
我在此项目当中的职责:
- 作为技术负责人,设计和实施技术方案;
- 收集训练数据,数据分析,特征工程,算法研究与实现,模型训练与评估,模型部署;
- 协调和沟通工作;
取得的成绩:
- NDCG提升9.6个百分点,超额完成;
涉及技术: Solr, Python, 机器学习, PHP, MySQL, Linux, Clojure
Solr Migration
该项目是把律商网的所有搜索业务,从商业搜索引擎HP IDOL(Autonomy)迁移到Solr Cloud平台上。HP IDOL是一个闭源的商业全文搜索引擎,无法满足日益增长的业务需求。Solr Cloud是完全开源的平台,可以开发各类插件,灵活的配置可以为业务提供更好的支持。因此,我们作搭建了Solr Cloud集群平台。深入探索了搜索引擎的中文分词后,发现其无法满足我们的业务需求。为此,我亲自研发了Solr Plugin,集成了高效的中文分词,大大提高了搜索的精度和效率。此外,我还对业务层代码进行重构和微服务化,使其更加灵活和高效。通过这些措施,我们成功提升了NDCG得分5%,这证明了我们在技术领导力和实力方面的卓越表现,展示了团队在垂类搜索技术领域的领先地位。
我在此项目当中的职责:
- 作为技术负责人,设计和实施技术方案;
- 梳理所有搜索业务需求;
- 搭建Solr Cloud平台,搜索相关性调优;
- 开发中文分词插件;
- 对业务层代码调整和重构;
- 协调和沟通工作;
取得的成绩:
- 成功提升了NDCG 5.6个百分点,超额完成;
- 年度优秀员工
涉及技术: Java, Solr, PHP, JavaScript, MySQL, Linux, Clojure
Hyperlink
这个项目是处理所有法律文书、判决文书、专家对法律入判决的解读、合作机构评论文章以及合同范本等数据,把各种类型数据之间的关联关系自动抽取保存,供搜索以及文档详情页面使用。比如一份判决文书里面提到裁判的法律依据,那么就把判决文书与法律文书之间的关联关系进行抽取保存,然后在搜索和阅读时以链接和反向链接的形式展现。 此项目是对原有的旧系统的重写,原来的系统完全基于数据库,需要人工进行四个步骤的干预,效率非常低下,人工成本非常高。我我们团队在对业务进行梳理之后,由我主持并开发了由Scala编写的基于Spark大数据处理平台的Hyperlink系统;部署了分布式处理系统,优化业务逻辑。处理速度由原来人工参与要几年才能处理完的2千万数据,提升到6小时全量处理完。
角色:Technique Leader
职责:技术方案设计与实施
涉及技术:Scala, Spark, MySQL, Linux
律商网
律商网(www.lexiscn.com)是励讯集团(RELX Group)在国内的法律行业领先的法律数据库服务商,是目前中国市场上最为完整、全面的法律法规数据库,及时更新的判决文书,同时提供精准的英文翻译,以及便捷的翻译定制服务。
我在此项目当中的职责:
- 重大技术方案的设计与实施。评估新功能,设计技术实现路径,管理研发全过程,出色的完成了每一个新功能的按时交付;
- 团队管理。合理安排工作内容,持续扩大和提升团队力量;
- 系统运维。确保系统的稳定性,可用性在99.99%以上;
- 团队文化建设。营造良好的技术氛围,组织技术分享会;
- 主导产品研发。重构和开发富有弹性的框架和架构,持续提升单元测试覆盖率,有效的提升了开发效率,提升了代码质量,有效降低的代码的维护成本;
- 研发效能提升。利用开源和自研工具提升研发效率。
取得的成绩:
- 交付用户订阅模块、在线图书馆模块、高并发业务;
- 个人两次获得年度优秀员工奖;
- 组织并建立了技术分享社区;
涉及技术栈: PHP, MySQL, Linux, JavaScript, Yii Framework, Git, CVS
久久票务通
公司:久久票务通 时间:2009/7-2010/3
负责代码及数据库的设计、开发与维护,参与票务代购平台核心模块开发;开发发票打印系统;编写相关技术文档;解决系统中的关键问题和技术难题;指导新同事。
技能
领导力
通过技术经理、研发顾问、高级研发顾问、CTO等多个职位任职的经验,我积累了丰富的管理经验,具有非常好的沟通能力与组织管理能力。具有实施敏捷开发、OKR等方法的经验。
编程语言
后端
- Python
- Java
- PHP
- Scala
- Clojure
- Rust
- Haskell
前端
- TypeScript
- JavaScript
- ClojureScript
人工智能
目前专注在自然语言处理方向
框架
- HuggingFace
- PaddlePaddle
- PyTorch
- Tensorflow
- MXNet
数据库
- MySQL
- MongoDB
搜索引擎
- Solr
- ElasticSearch
- HP IDOL
- Sphinx
- MarkLogic
大数据处理
- Spark
缓存
- Redis
- Memcached
操作系统
- CentOS
- Ubuntu
- RedHat
- Windows
- MacOS
版本管理
- Git
- CVS
- SVN
编辑器
- VSCode
- Emacs
- Intellij Idea
- Vim
- Eclipse
工作经历
时间 | 职位 | 公司名称 |
---|---|---|
2009/7-2010/3 | PHP开发工程师 | 久久票务通 |
2010/4-2011/3 | 软件开发工程师 | 同方鼎欣信息技术有限公司 |
2011/4-2014/3 | 高级软件工程师 | 励德爱思唯尔信息技术(北京)有限公司 |
2014/4-2016/3 | 技术经理 | 励德爱思唯尔信息技术(北京)有限公司 |
2016/04-2022/03 | 高级研发顾问 | 励德爱思唯尔信息技术(北京)有限公司 |
2022/04-至今 | 技术总监 | 湖南赤道银河科技有限公司 |
在校情况
获奖
2008/9 优秀团干 2008/4 奖学金(三等)
校内职务
2004/9-2005/6 大学生力行服务社网络部部长 职务描述:开发并维护社团网站,组织开展线下活动
兴趣爱好
看书,跑步,打篮球,听歌。