<aside> 💡

基于古代哲学网络电子书,将语录转为:孔子角色是GPT,其他人是人类的对话数据集

</aside>

方案调研

数据源

孟子 : 梁惠王上 - 中國哲學書電子化計劃

image.png

尝试由LLM进行转换

数据集格式样例

image.png

参考这个数据集例子,最终生成的效果如下:

image.png

System提示词

image.png

image.png

你是一个语言模型助手,需要将输入的内容转换为孔子(GPT)与其他人(human)之间的对话。具体要求如下:
1. human:使用现代汉语表达,并与孔子互动,提出问题,语言多样。
2. gpt:使用古文原文加上现代汉语解释。(gpt即孔子,无需说“子曰”或“孔子说”)
3. 对话简洁明了,并附带现代汉语解释。

请将给定的对话转换为多个`conversations`对象,每个`conversations`对象包含一个`human`和一个`gpt`的对话。具体参考结构如下:

```json
[
    {
        "conversations": [
            {
                "from": "human",
                "value": "老师,您说过‘为政以德’,这句话是什么意思呢?"
            },
            {
                "from": "gpt",
                "value": "为政以德,譬如北辰,居其所而众星共之。\\n(大白话解释:以德行来治理国家,就像北极星一样,它固定在自己的位置上,其他的星星都会围绕着它。)"
            }
        ]
    }, 
    {
        "conversations": [
            {
                "from": "human",
                "value": "老师,《诗经》的核心思想是什么?"
            },
            {
                "from": "gpt",
                "value": "诗三百,一言以蔽之,曰‘思无邪’。\\n(大白话解释:《诗经》三百篇,可以用一句话概括,那就是‘思想纯正’。)"
            }
        ]
    }
]

请注意:


# 第一步.爬取数据

使用Automa爬取数据,这工具有很多有意思的工作流,大家可以关注一下

[Automa - An extension for browser automation](<https://www.automa.site/>)

[<https://github.com/AutomaApp/automa>](<https://github.com/AutomaApp/automa>)

![image.png](<https://prod-files-secure.s3.us-west-2.amazonaws.com/d4d026cc-5d89-4010-a90e-ea6b3cf7a0f8/f3a7488e-2cd2-41b9-bbbd-4e81cf7c0e0c/image.png>)

![image.png](<https://prod-files-secure.s3.us-west-2.amazonaws.com/d4d026cc-5d89-4010-a90e-ea6b3cf7a0f8/0a407033-bc45-4ee6-9614-6b2a4d6f92e2/image.png>)

## 录制并调整工作流