个人信息
- 蒋文林/男/1988
- 博客:https://kevinjiang.info
- Github:https://github.com/kevindragon{:target="_blank"}
- 微信:kittenll
- 邮箱:wenlin1988@126.com
个人简介
我拥有12年世界500强企业励德爱思唯尔公司的工作经验,担任3年团队管理职务,6年资深研发顾问。目前,我在一家初创企业担任CTO一职,负责管理技术团队并带领他们取得成功。我拥有多种技能,并能够灵活应用它们来解决问题。在我领导的团队中,我注重激发成员的潜力,并通过提供明确的方向和全面的支持,帮助他们实现个人和团队目标。 我的性格开朗、乐观、喜欢分享并且具备钻研精神。我在自然语言处理方面有丰富的经验,曾经在多个自然语言处理相关的项目中担任过关键角色。我擅长运用机器学习和深度学习等技术对大规模文本数据进行分析和挖掘,包括文本分类、实体识别、关系抽取等。我对于不断学习新知识和技能充满热情,以适应迅速变化的商业环境。我期待能够在未来的机会中为贵组织做出积极的贡献。
工作经历
湖南赤道银河科技有限公司
湖南赤道银河科技有限公司,是一家大数据驱动的科技智库和科技情报系统解决方案提供商。自主研发的猎研(SciRadar)一站式科技创新情报平台荣获2021年中国国防科技信息优秀成果。自正式上线以来,机构用户覆盖全国多家重点高校、科研院所以及政府和企业的科技部门,包括:中科院、工程院、清华大学、军事科学院、国防科技大学、鹏程实验室等。
我在湖南赤道银河科技有限公司担任CTO一职,带领团队攻坚克难,持续的技术创新,培养了一批青春有活力的工程师。参与制定公司的战略规划和业务拓展方向。密切关注市场和客户需求,了解行业发展趋势,制定相应的战略规划,以帮助公司把握市场机遇,实现可持续发展。制定公司的人才战略和组织文化建设,招募和留住优秀的人才,为公司的未来发展打下坚实的基础。
在此期间我们承接了多个重点高校的研发项目,参与了长沙市重大专项计划,申请了湖南省2023重大研发计划。
公司主打的产品是SciRadar,网址:https://sciradar.com
励德爱思唯尔信息技术(北京)有限公司
目前为止,我在励德爱思唯尔工作时间最长,经历丰富。我从一位开发工程师开始,逐步晋升为高级研发工程师,并在公司的培养下成长为技术经理。最终,我担任了公司的高级研发顾问,为公司在技术方面提供战略性建议和支持。
励讯集团是世界领先的信息与数据分析提供商,服务于不同行业领域的专业及商业客户。作为励讯集团旗下信息分析公司爱思唯尔的技术经理及研发高级顾问,我曾服务于不同行业领域的专业及商业客户。我们帮助科学家作出新的科学发现,帮助律师打赢官司,帮助医生拯救生命,帮助保险公司向顾客提供更低的价格,防范欺诈,为纳税人和消费者节省开支,帮助公司管理人员与客户建立商业关系。我们的使命是帮助客户做出更好的决策,获得更好的收益,变得更加高效。
作为该领域的专家和高级研发顾问(2016/04-2022/03),我领导和参与了全球多个搜索平台的研发和建设,实现了业界领先的法律和专利搜索排序算法。我不仅使用机器学习方法优化了搜索排序,还指导团队成员开发了高质量的代码,并针对团队成员进行了技术培训和工作指导,以提高团队整体技术水平。
此外,我研发了Spark大数据平台,并实现了巨大的性能提升,加快了数据处理速度和团队工作效率。我还为团队成员编写了详细的技术文档,以帮助他们更好地理解和使用新的数据平台和技术工具。
通过我的工作指导和培训,团队成员的技术能力和工作效率都得到了显著提升。我持续关注新技术和行业发展趋势,并积极探索创新的解决方案,以帮助团队保持领先优势。
主导/参与的项目
Query Understanding
这个项目旨在为用户提供更加高效的专利查询方式,传统的查询表达式语法复杂难以记忆。使用自然语言处理技术,对专利自然语言查询进行实体识别,结合用户交互设计为专利研究人员提高查询效率。项目上线后可以使用自然语言进行检索,系统会自动帮助用户把自然语言转换为专业的查询表达式。
职位:Senior Consultant
职责:参与算法研究,设计整体实施方案
涉及技术:BERT, Named Entity Recognition, Python,Java,Linux,AWS,Angular
Semantic Parsing
这是一个名为"Semantic Parsing for MarkLogic"的项目,该项目利用机器学习方法进行离线短语挖掘,并用于在线搜索中查询短语的识别。根据不同的短语类型,将查询请求指定到最相关的字段进行检索。我们取得了很好的成果,搜索结果的DCG增长了2.7%。 在项目的研发过程中,我带领团队设计并实现了一个全新的Python数据处理开发框架,这个框架可以对数据和底层业务逻辑进行抽象,从而提高数据库科学家处理数据的开发效率。我深刻认识到,在技术开发过程中,优秀的架构设计和高效的工具支持是至关重要的。
角色:Senior Consultant
职责:Python数据处理框架设计与实现,参与算法研究
涉及技术:Python, Java, MarkLogic, Linux, AWS, AutoPhrase
Query Augmentation
这个项目是为了提高搜索引擎的召回率而开展的POC项目。我们的团队使用了特征工程方法,构建了基于字符数量、单词数量、编辑距离、Jaccard系数、互信息、Word2Vec、GloVe和fastText在内的一系列特征,并通过日志挖掘和人工标注相结合的方法生成了训练数据。接着,我们训练了一个同义词识别模型,并对候选同义词列表进行了分类。最后,我们将同义词列表应用于在线查询扩展。
虽然我们的结果在精度方面取得了业界非常高的水平,但我们发现这种在线应用并没有达到预期的效果,因此我们最终放弃了这个方案。
角色:Senior Consultant
职责:算法实现与实验
涉及技术:Python, MarkLogic, Linux, AWS
Dive in Solr
这是一个POC项目,评估Solr对公司整个搜索平台的特定场景的支持程序,开发Search Component的成本。Solr是一个开源的搜索引擎,其中的Search Component组件能够通过对搜索结果进行加工处理,提高搜索结果的质量和相关性。该组件可定制化,用户可以根据需求修改查询参数、过滤条件、排序规则等,实现不同的搜索需求和功能。
角色:Consultant
职责:深入理解Solr源码,设计搜索引擎迁移方案,评估搜索引擎迁移成本
涉及技术:Java, Solr, Linux
Learning To Rank
在将搜索引擎从HP IDOL迁移到Solr Cloud之后,我带领团队进一步提升了Solr的搜索质量。我们首先收集了搜索和浏览日志,并根据日志数据的分析结果定义了文档数据与查询相关度的标准。随后,我们对日志数据进行了处理和清洗,并通过特征工程设计了一系列特征列表,用于生成训练数据。在使用Ranklib开发包进行模型训练时,我们选择了LambdaMART算法,LambdaMART算法相对于其他LTR算法的优势在于,它能够在学习排名时使用更加精细的特征,从而获得更好的性能。LambdaMART也能够处理大规模数据集和高维度特征,并在排序质量和训练时间上都具有良好的性能。为了进行LTR集成,我们将特征列表写入Solr,并选择支持LambdaMART的MultipleAdditiveTreesModel类。经过9个月的研发和测试,我们成功地将NDCG的提升推向了一个新的高度,达到了9.6%。最后,我们建立了一个反馈循环,能够持续地优化线上搜索结果。
角色:Consultant
职责:深入研究Solr的LTR,数据分析,特征工程,算法研究与实施,推动集成测试
涉及技术:Solr, Python, Ranklib, PHP, MySQL, Linux, Clojure
Solr Migration
作为技术领袖,我带领团队成功将基于商业搜索引擎HP IDOL(Autonomy)的所有业务迁移到Solr Cloud平台上,并深入探索了搜索引擎的中文分词,发现其无法满足我们的业务需求。为此,我亲自研发了Solr Plugin,集成了高效的中文分词,大大提高了搜索的精度和效率。此外,我还对业务层代码进行重构和微服务化,使其更加灵活和高效。通过这些措施,我们成功提升了NDCG得分5%,这证明了我们在技术领导力和实力方面的卓越表现,展示了团队在垂类搜索技术领域的领先地位。
角色:Technique Leader
职责:项目协调,技术方案设计与实施,Solr Cloud调研与部署,Solr Plugin实现,算法调优
涉及技术:Java, Solr, PHP, MySQL, Linux, Clojure
Hyperlink
这个项目是处理所有法律文书、判决文书、专家对法律入判决的解读、合作机构评论文章以及合同范本等数据,把各种类型数据之间的关联关系自动抽取保存,供搜索以及文档详情页面使用。比如一份判决文书里面提到裁判的法律依据,那么就把判决文书与法律文书之间的关联关系进行抽取保存,然后在搜索和阅读时以链接和反向链接的形式展现。 此项目是对原有的旧系统的重写,原来的系统完全基于数据库,需要人工进行四个步骤的干预,效率非常低下,人工成本非常高。我我们团队在对业务进行梳理之后,由我主持并开发了由Scala编写的基于Spark大数据处理平台的Hyperlink系统;部署了分布式处理系统,优化业务逻辑。处理速度由原来人工参与要几年才能处理完的2千万数据,提升到6小时全量处理完。
角色:Technique Leader
职责:技术方案设计与实施
涉及技术:Scala, Spark, MySQL, Linux
久久票务通
公司:久久票务通 时间:2009/7-2010/3
负责代码及数据库的设计、开发与维护,参与票务代购平台核心模块开发;开发发票打印系统;编写相关技术文档;解决系统中的关键问题和技术难题;指导新同事。
技能
领导力
通过技术经理、研发顾问、高级研发顾问、CTO等多个职位任职的经验,我积累了丰富的管理经验,具有非常好的沟通能力与组织管理能力。具有实施敏捷开发、OKR等方法的经验。
编程语言
后端
- Python
- Java
- PHP
- Scala
- Clojure
- Rust
- Haskell
前端
- TypeScript
- JavaScript
- ClojureScript
人工智能
目前专注在自然语言处理方向
框架
- HuggingFace
- PaddlePaddle
- PyTorch
- Tensorflow
- MXNet
数据库
- MySQL
- MongoDB
搜索引擎
- Solr
- ElasticSearch
- HP IDOL
- Sphinx
- MarkLogic
大数据处理
- Spark
缓存
- Redis
- Memcached
操作系统
- CentOS
- Ubuntu
- RedHat
- Windows
- MacOS
版本管理
- Git
- CVS
- SVN
编辑器
- VSCode
- Emacs
- Intellij Idea
- Vim
- Eclipse
工作经历
时间 | 职位 | 公司名称 |
---|---|---|
2009/7-2010/3 | PHP开发工程师 | 久久票务通 |
2010/4-2011/3 | 软件开发工程师 | 同方鼎欣信息技术有限公司 |
2011/4-2014/3 | 高级软件工程师 | 励德爱思唯尔信息技术(北京)有限公司 |
2014/4-2016/3 | 技术经理 | 励德爱思唯尔信息技术(北京)有限公司 |
2016/04-2022/03 | 高级研发顾问 | 励德爱思唯尔信息技术(北京)有限公司 |
2022/04-至今 | CTO | 湖南赤道银河科技有限公司 |
在校情况
获奖
2008/9 优秀团干 2008/4 奖学金(三等)
校内职务
2004/9-2005/6 大学生力行服务社网络部部长 职务描述:开发并维护社团网站,组织开展线下活动
兴趣爱好
看书,跑步,打篮球,听歌。